全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 835|回复: 16

4090 跑deepseek-r1:70b 一个简单的问题思考23分钟,还答非所问.

[复制链接]
发表于 昨天 12:55 | 显示全部楼层 |阅读模式
写过年喜庆对联.



发表于 昨天 13:53 | 显示全部楼层
pykane 发表于 2025-1-30 13:16
多学习一下开源吧。
Deepseek 有论文,有代码。
什么时开源,用提供的论文和代码,可以复现。这才是真正 ...

多学习一下开源吧。
你这个数据集就是llama, 只不过你改进了下。
等于你用你的炒菜技术和调料,把别人的菜给炒了。

它这个开源就是假的,菜是qwen和llama的。 只有它的网页版才是真的它自己的菜(openai说它偷了),偷不偷先不说,起码是它自己的,开源的这些都是它炒别人的菜拿给你了,当然确实加了调料改进了下。

点评

能偷OpenAI也是一种本事  发表于 昨天 15:13
发表于 昨天 12:59 | 显示全部楼层
本帖最后由 低价vps大全 于 2025-1-30 13:00 编辑

跑起来也没用啊, deepseek开源的都是假的,你这个本质还是llama, 标题都是DeepSeek-R1-Distill-Llama-70B


跟deepseek网页版完全不是一个东西, 而不仅是参数大小不同。。
 楼主| 发表于 昨天 13:05 | 显示全部楼层
低价vps大全 发表于 2025-1-30 12:59
跑起来也没用啊, deepseek开源的都是假的,你这个本质还是llama, 标题都是DeepSeek-R1-Distill-Llama-70B
...

那个671B 好像不是.
他的主要贡献是https://github.com/deepseek-ai/DeepSeek-MoE 这个训练算法吧.

发表于 昨天 13:06 | 显示全部楼层
70B 爆显存了,32B我在4090跑就吃了19G显存,你怎么跑起来的70B。
 楼主| 发表于 昨天 13:11 | 显示全部楼层
本帖最后由 奧巴马 于 2025-1-30 13:13 编辑
yjx79802 发表于 2025-1-30 13:06
70B 爆显存了,32B我在4090跑就吃了19G显存,你怎么跑起来的70B。


设置共享内存.你跑671B都可以.只不过.可能需要一天时间来思考.


发表于 昨天 13:16 | 显示全部楼层
低价vps大全 发表于 2025-1-30 12:59
跑起来也没用啊, deepseek开源的都是假的,你这个本质还是llama, 标题都是DeepSeek-R1-Distill-Llama-70B
...

多学习一下开源吧。
Deepseek 有论文,有代码。
什么时开源,用提供的论文和代码,可以复现。这才是真正的开源。


在 Mac mini 24G 跑14B 速度没问题,32B 有一些吃力。
更大的模型,可以用多个机器分切运行组成一个。
发表于 昨天 13:16 | 显示全部楼层
32b差不多了
其实真不如直接玩api
 楼主| 发表于 昨天 13:25 来自手机 | 显示全部楼层
奧巴马 发表于 2025-1-30 13:11
设置共享内存.你跑671B都可以.只不过.可能需要一天时间来思考.

Loc mjj不是说已经干翻o1了吗?我准备用公司的8卡h100 架设试试!
 楼主| 发表于 昨天 13:29 来自手机 | 显示全部楼层
pykane 发表于 2025-1-30 13:16
多学习一下开源吧。
Deepseek 有论文,有代码。
什么时开源,用提供的论文和代码,可以复现。这才是真正 ...

我看了看代码,没有什值得关注的东西。论文也只是口上说!没人实际操作过,我准备用公司资源复现,如果真可以,可以给公司创造价值!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-1-31 07:01 , Processed in 0.061845 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表