全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
12
返回列表 发新帖
楼主: 吊打华伪

开启核显跑AI后,显存大小不是问题了,32B都满足不了我了!

[复制链接]
 楼主| 发表于 2025-4-12 15:11:33 | 显示全部楼层
杜甫 发表于 2025-4-12 14:43
刚试了下,
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒,不知道把P106拔下来后有多少

我之前用这个https://hostloc.wiki/thread-1399611-1-1.html
生成文章的效果不是一般的差。

不知道你这个coder版本质量怎么样。
发表于 2025-4-12 15:30:15 | 显示全部楼层
吊打华伪 发表于 2025-4-12 15:04
你跑的时最小的吧,几GB的那种。 单凡你跑个10GB的, 就不可能有这个速度。

理论最好的情况10-6=4GB要传 ...

16B,模型大小8.9G
 楼主| 发表于 2025-4-12 16:07:38 | 显示全部楼层
杜甫 发表于 2025-4-12 15:30
16B,模型大小8.9G

你这个是moe的,每次只读取激活的权重,远远小于8.9.   大概率都小于6GB.

其他模型每次都要读取8.9GB.   不信你跑下其他模型,同样8.9GB, 你会发现速度大幅度下降。估计也就2token/s左右了。
发表于 2025-4-12 16:15:34 | 显示全部楼层
吊打华伪 发表于 2025-4-12 16:07
你这个是moe的,每次只读取激活的权重,远远小于8.9.   大概率都小于6GB.

其他模型每次都要读取8.9GB.   ...

不懂。
128G的内存,能跑32B的模型了吧
 楼主| 发表于 2025-4-12 17:03:05 | 显示全部楼层
杜甫 发表于 2025-4-12 16:15
不懂。
128G的内存,能跑32B的模型了吧

能是能,就是超级慢。  你也不用折腾了,就跑i现在这个moe最合适了,换其他的8.9G 最多2token/s.
换更大24G的,会直接掉到0.3以下。  也就是你想跑大的模型,只能把p106去掉。会大幅度提高速度。

因为cpu算力虽然比显卡慢,但是最慢的数据传输部分,读取速度从矿卡的4GB/s大幅提高到了40GB/s(ddr4 3200双通道).
发表于 2025-4-12 17:11:16 | 显示全部楼层
吊打华伪 发表于 2025-4-12 17:03
能是能,就是超级慢。  你也不用折腾了,就跑i现在这个moe最合适了,换其他的8.9G 最多2token/s.
换更大 ...

就是说去掉烂显卡,反而会快很多?
 楼主| 发表于 2025-4-12 18:40:10 | 显示全部楼层
杜甫 发表于 2025-4-12 17:11
就是说去掉烂显卡,反而会快很多?

对大体积的而言,确实会快。 但是不是快太多。但肯定比被pcie 1.1*16限制下的0.3 token每秒快很多。2token差不多吧。

除了moe模型之外,其他模型每算一个token就要读取整个模型大小。

对大体积的而言,超过了你显存,cpu再慢,也用不了数据传输那么久。
发表于 2025-4-12 22:51:14 | 显示全部楼层
吊打华伪 发表于 2025-4-12 14:35
香菇肥牛,有印象    记得以前看过你博客的一篇教程。

没有独显,纯核显。

用的OpenVino? 我去研究研究
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-5-6 05:29 , Processed in 0.058931 second(s), 6 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表