开启核显跑AI后，显存大小不是问题了，32B都满足不了我了！

吊打华伪 · 发表于 2025-4-12 15:11:33

杜甫发表于 2025-4-12 14:43
刚试了下，
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒，不知道把P106拔下来后有多少

我之前用这个https://hostloc.wiki/thread-1399611-1-1.html
生成文章的效果不是一般的差。

不知道你这个coder版本质量怎么样。

杜甫 · 发表于 2025-4-12 15:30:15

吊打华伪发表于 2025-4-12 15:04
你跑的时最小的吧，几GB的那种。单凡你跑个10GB的，就不可能有这个速度。

理论最好的情况10-6=4GB要传 ...

16B，模型大小8.9G

吊打华伪 · 发表于 2025-4-12 16:07:38

杜甫发表于 2025-4-12 15:30
16B，模型大小8.9G

你这个是moe的，每次只读取激活的权重，远远小于8.9. 大概率都小于6GB.

其他模型每次都要读取8.9GB. 不信你跑下其他模型，同样8.9GB, 你会发现速度大幅度下降。估计也就2token/s左右了。

杜甫 · 发表于 2025-4-12 16:15:34

吊打华伪发表于 2025-4-12 16:07
你这个是moe的，每次只读取激活的权重，远远小于8.9. 大概率都小于6GB.

其他模型每次都要读取8.9GB. ...

不懂。
128G的内存，能跑32B的模型了吧

吊打华伪 · 发表于 2025-4-12 17:03:05

杜甫发表于 2025-4-12 16:15
不懂。
128G的内存，能跑32B的模型了吧

能是能，就是超级慢。你也不用折腾了，就跑i现在这个moe最合适了，换其他的8.9G 最多2token/s.
换更大24G的，会直接掉到0.3以下。也就是你想跑大的模型，只能把p106去掉。会大幅度提高速度。

因为cpu算力虽然比显卡慢，但是最慢的数据传输部分，读取速度从矿卡的4GB/s大幅提高到了40GB/s(ddr4 3200双通道).

杜甫 · 发表于 2025-4-12 17:11:16

吊打华伪发表于 2025-4-12 17:03
能是能，就是超级慢。你也不用折腾了，就跑i现在这个moe最合适了，换其他的8.9G 最多2token/s.
换更大 ...

就是说去掉烂显卡，反而会快很多？

吊打华伪 · 发表于 2025-4-12 18:40:10

杜甫发表于 2025-4-12 17:11
就是说去掉烂显卡，反而会快很多？

对大体积的而言，确实会快。但是不是快太多。但肯定比被pcie 1.1*16限制下的0.3 token每秒快很多。2token差不多吧。

除了moe模型之外，其他模型每算一个token就要读取整个模型大小。

对大体积的而言，超过了你显存，cpu再慢，也用不了数据传输那么久。

shc · 发表于 2025-4-12 22:51:14

吊打华伪发表于 2025-4-12 14:35
香菇肥牛，有印象记得以前看过你博客的一篇教程。

没有独显，纯核显。

用的OpenVino? 我去研究研究

		自动登录	找回密码
密码			注册

开启核显跑AI后，显存大小不是问题了，32B都满足不了我了！

浏览过的版块