deepseek7b用4G显存能跑吗

5771 32

[1 楼] CIO [泡菜] 2-5 12:36 推荐8G的，但电脑显存只有4G，要是能跑就费劲试试。发布自安卓客户端
[33 楼] lzc463 [资深泡菜] 2-16 11:40 闲聊状态发表于 2025-02-10 11:35 如果要在显卡上跑，理论上确实是这样的，但是GPU性能相对平庸，而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定除非去买华强北魔改版（比如48G的4090 22G的2080等）所以从正规渠道能买到的大显存显卡都是高性能显... 这种显存与GPU的绑定就是垄断行为，但是大家都没有制裁的能力
[32 楼] 闲聊状态 [泡菜] 2-14 06:43 闲聊状态发表于 2025-02-10 11:35 如果要在显卡上跑，理论上确实是这样的，但是GPU性能相对平庸，而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定除非去买华强北魔改版（比如48G的4090 22G的2080等）所以从正规渠道能买到的大显存显卡都是高性能显... 前两天看到一个新闻貌似新的AMD 9070XT 要在二季度出32G的。。。。而且貌似价格比正常版贵2000。。。显存不是金子胜似金子。。。
[31 楼] 闲聊状态 [泡菜] 2-13 10:57 couldiy 发表于 2025-02-12 19:44 P-104/6 10G 显卡才2-300元，就是不知道跑llm有多快这些卡日后很难了，因为CUDA新版不支持了，而ollama的cuda支持也在不停的升级，如果遇到新模型，基本上也得升级ollama否则也有可能无法使用新的模型至于跑多快，看显存带宽，直接算就行，大差不差。可以把问题丢给deepseek 让它给你算。。。
[30 楼] couldiy [泡菜] 2-12 19:44 CIO 发表于 2025-02-05 12:36 推荐8G的，但电脑显存只有4G，要是能跑就费劲试试。 P-104/6 10G 显卡才2-300元，就是不知道跑llm有多快
[29 楼] Trompette [泡菜] 2-11 20:51 虚化发表于 2025-02-10 22:46 只要花9k就能70b跑到20t/s，垃圾佬的玩法 https://www.bilibili.com/video/BV1DH4y1c7gK/?spm_id_from=333.337.search-card.all.click 这个 PCIe 交换芯片无敌了，明年4号机上计划！投资不大，3号机的显卡和内存都可以沿用
[28 楼] 虚化 [资深泡菜] 2-10 22:46 只要花9k就能70b跑到20t/s，垃圾佬的玩法 https://www.bilibili.com/video/BV1DH4y1c7gK/?spm_id_from=333.337.search-card.all.click
[27 楼] woot [泡菜] 2-10 13:45 闲聊状态发表于 2025-02-10 11:35 如果要在显卡上跑，理论上确实是这样的，但是GPU性能相对平庸，而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定除非去买华强北魔改版（比如48G的4090 22G的2080等）所以从正规渠道能买到的大显存显卡都是高性能显... 老的有3060 12G，新的有4060TI 16G
[26 楼] 闲聊状态 [泡菜] 2-10 11:35 huhuzz 发表于 2025-02-10 08:22 带宽小只是慢，量大才能跑起来，推理对算力的需求没有训练高，所以要讨论的是，如果自己在家玩的话，是不是没有必要弄个非常强悍的显卡。另外一点，训练可以搞集群，那么推理行不行呢，如果家里有多台机器，能不能把他们的内存都利用上呢。如果要在显卡上跑，理论上确实是这样的，但是GPU性能相对平庸，而显存极大的显卡是不存在的。。显卡厂家都对显存大小与GPU性能进行了绑定除非去买华强北魔改版（比如48G的4090 22G的2080等）所以从正规渠道能买到的大显存显卡都是高性能显卡，而且也符合显存越大输出越快的“定律”.... 而唯二的两个“例外” Intel B580 24G 还没上市，AMD 7600XT 16G 不国内发售。。。当然与B580比起来，7600XT完全没有性价比。。。闲聊状态编辑于 2025-02-10 11:45
[25 楼] barenboim [泡菜] 2-10 11:28 虚化发表于 2025-02-09 13:58 mac mini m4丐版16g统一内存，cpu和gpu共用，带宽256GB/s，跑14b模型速度为10.70 tokens/s，完全是GPU在跑 14b模型的输出内容依旧是一本正经的胡说八道 M4的内存带宽是120GB/s
[24 楼] huhuzz [泡菜] 2-10 08:22 闲聊状态发表于 2025-02-08 13:30 内存带宽有限现在带宽最大的集显就是 mac m4 max，这玩意不便宜，而且内存不能换但是即使是mac m4 max 也就是500G左右的带宽，只相当于 4060TI 这个级别的显卡的带宽。要不是显存比金子还贵，比MAC的内存还贵，现在也不会... 带宽小只是慢，量大才能跑起来，推理对算力的需求没有训练高，所以要讨论的是，如果自己在家玩的话，是不是没有必要弄个非常强悍的显卡。另外一点，训练可以搞集群，那么推理行不行呢，如果家里有多台机器，能不能把他们的内存都利用上呢。发布自 iOS客户端
[23 楼] 虚化 [资深泡菜] 2-10 07:28 duoduobear 发表于 2025-02-10 01:06 Mac上真是奇了怪了。Ollama Ps 显示模型任务主要中GPU上跑。系统监视器中却看到CPU一点不闲着。看这个CPU占用率都超过100%了。CPU占用率显示超过100%是Mac上的一个老问题。... 我的mac mini m4 没问题，cpu 1% 发布自安卓客户端
[22 楼] duoduobear [Canon论坛版主] 2-10 01:06 闲聊状态发表于 2025-02-09 09:05 没有MAC 这个不清楚。。。不过在win下这种情况就是"爆显存"，一部分层在CPU一部分在GPU，这样才能导致两边都在运行 Mac上真是奇了怪了。Ollama Ps 显示模型任务主要中GPU上跑。系统监视器中却看到CPU一点不闲着。看这个CPU占用率都超过100%了。CPU占用率显示超过100%是Mac上的一个老问题。
[21 楼] duoduobear [Canon论坛版主] 2-10 00:19 washu 发表于 2025-02-09 12:30 难怪，我说咋两边都在跑 so 13 楼的情况就是，显存足够大？我又试了一下，Ollama可以自动分配CPU和GPU的使用比例。在大规模模型中，CPU能跑到45%以上，GPU则只看到一点点占用率，之前被我忽略不计了。 14b 32b 70b 70b时GPU占用率
[20 楼] 虚化 [资深泡菜] 2-9 13:58 mac mini m4丐版16g统一内存，cpu和gpu共用，带宽256GB/s，跑14b模型速度为10.70 tokens/s，完全是GPU在跑 14b模型的输出内容依旧是一本正经的胡说八道
[19 楼] washu [泡菜] 2-9 12:30 闲聊状态发表于 2025-02-09 09:05 没有MAC 这个不清楚。。。不过在win下这种情况就是"爆显存"，一部分层在CPU一部分在GPU，这样才能导致两边都在运行难怪，我说咋两边都在跑 so 13 楼的情况就是，显存足够大？ duoduobear 发表于 2025-02-08 16:34 Mac电脑跑Ollama Deepseek，有一个和Windows平台不一样的地方。在Windows平台上，我看到要么模型在CPU上运行，要么在GPU上运行...
[18 楼] 闲聊状态 [泡菜] 2-9 09:05 duoduobear 发表于 2025-02-08 16:59 M芯片的苹果Mac电脑设计比较特殊，它跑大语言模型的确有优势。我找8GB内存的M1 Macbook Pro上运行8B，感觉很流畅。但Intel和AMD平台的核显配合统一内存架构是否也这个优势呢？我找了一些资料还找了一台AMD笔记本电脑试了一下，发现... 没有MAC 这个不清楚。。。不过在win下这种情况就是"爆显存"，一部分层在CPU一部分在GPU，这样才能导致两边都在运行
[17 楼] CIO [泡菜] 2-9 00:06 虚化发表于 2025-02-08 23:15 刚才用笔记本4060 8g显卡跑了deepseek 7b模型，占用5.5g显存，43 token/s，速度是够快，就是回答内容质量很差，可以算是一本正经的胡说八道... 死心了发布自安卓客户端
[16 楼] 虚化 [资深泡菜] 2-8 23:15 刚才用笔记本4060 8g显卡跑了deepseek 7b模型，占用5.5g显存，43 token/s，速度是够快，就是回答内容质量很差，可以算是一本正经的胡说八道发布自安卓客户端
[15 楼] 虚化 [资深泡菜] 2-8 23:12 huhuzz 发表于 2025-02-08 13:26 用CPU集成的核显是不是更灵活一些，最多可以划一半的主存当显存用，直接扩主存就行了。... 内存带宽比显存带宽差很多，Mac因为内存用作显存，所以特别提高了内存带宽，减小跟显存的差距发布自安卓客户端
[14 楼] duoduobear [Canon论坛版主] 2-8 16:59 huhuzz 发表于 2025-02-08 13:26 用CPU集成的核显是不是更灵活一些，最多可以划一半的主存当显存用，直接扩主存就行了。 M芯片的苹果Mac电脑设计比较特殊，它跑大语言模型的确有优势。我找8GB内存的M1 Macbook Pro上运行8B，感觉很流畅。但Intel和AMD平台的核显配合统一内存架构是否也这个优势呢？我找了一些资料还找了一台AMD笔记本电脑试了一下，发现好像不行。我用的是一台16GB内存的核显AMD笔记本电脑，年代和8GB M1 Macbook Pro相近，当时的价格也应该相近。但这台电脑上显存默认只分配了512MB，其他都是共享显存，而可分配给GPU的共享内存并不是很多。实际运行体验和8GB M1 Macbook相比要差不少。我认为既然同样是使用内存，那Intel/AMD平台上使用核显的性能并不比使用CPU高，因为瓶颈是在内存带宽。使用CPU运行大语言模型，CPU使用率也跑不满。所以使用CPU和使用核显性能差距不大。除非是有特殊设计的内存和架构，可能会提供很好的性能，比如Nvidia 的Project Digits，介绍里特意提到使用高带宽DDR5X内存。
[13 楼] duoduobear [Canon论坛版主] 2-8 16:34 闲聊状态发表于 2025-02-08 13:30 内存带宽有限现在带宽最大的集显就是 mac m4 max，这玩意不便宜，而且内存不能换但是即使是mac m4 max 也就是500G左右的带宽，只相当于 4060TI 这个级别的显卡的带宽。要不是显存比金子还贵，比MAC的内存还贵，现在也不会... Mac电脑跑Ollama Deepseek，有一个和Windows平台不一样的地方。在Windows平台上，我看到要么模型在CPU上运行，要么在GPU上运行，但在M1 Macbook Pro上运行Ollama上的模型时，我看到CPU和GPU同时都在高负载状态，这是怎么一回事？Ollama在MacOS上的实现和Windows平台不同吗？
[12 楼] bird3000 [陈年泡菜] 2-8 13:43 能跑，快慢不知道，装一个试试就行了。我8G显存的跑得飞快
[11 楼] 闲聊状态 [泡菜] 2-8 13:30 huhuzz 发表于 2025-02-08 13:26 用CPU集成的核显是不是更灵活一些，最多可以划一半的主存当显存用，直接扩主存就行了。内存带宽有限现在带宽最大的集显就是 mac m4 max，这玩意不便宜，而且内存不能换但是即使是mac m4 max 也就是500G左右的带宽，只相当于 4060TI 这个级别的显卡的带宽。要不是显存比金子还贵，比MAC的内存还贵，现在也不会有人会用MAC干这个。。。
[10 楼] huhuzz [泡菜] 2-8 13:26 用CPU集成的核显是不是更灵活一些，最多可以划一半的主存当显存用，直接扩主存就行了。发布自 iOS客户端
[9 楼] washu [泡菜] 2-8 13:08 radius 发表于 2025-02-07 19:52 为啥非要在本地跑？有保密需求？可以咸鱼买个tesla M40 24G 显卡，不到1000。可能是性价比最高的跑AI得硬件了。不过就算这样也不如API合算，1000块钱可以处理几亿个token了，你有啥资料需要那么多token ？楼主在 8 楼回答了，我也是差不多，我问 DSR1 Web 公众版，老是服务器繁忙 --- 虽然隔壁泡菜说是我提问的水平太低，那我就自己电脑上跑个试试，如果不需要我额外增加硬件的话就当作玩玩，顺便看下怎么提高提问水平，毕竟我问其它 Ai，比如 Kimi，豆包啥的都很正常，就 DSR1 不正常嘛
[8 楼] CIO [泡菜] 2-8 09:54 radius 发表于 2025-02-07 19:52 为啥非要在本地跑？有保密需求？可以咸鱼买个tesla M40 24G 显卡，不到1000。可能是性价比最高的跑AI得硬件了。不过就算这样也不如API合算，1000块钱可以处理几亿个token了，你有啥资料需要那么多token ？... 用了几次ds app，总报错，估计是故障了，就想自己部署试试发布自安卓客户端
[7 楼] CATWK [泡菜] 2-8 08:43 radius 发表于 2025-02-07 19:52 为啥非要在本地跑？有保密需求？可以咸鱼买个tesla M40 24G 显卡，不到1000。可能是性价比最高的跑AI得硬件了。不过就算这样也不如API合算，1000块钱可以处理几亿个token了，你有啥资料需要那么多token ？一个是安全，而且目前deepseek商业化做得不好，服务可用性不高，再者开源（权）不就是让你自己部署着玩的么，不玩白不玩，和用SaaS版的也不冲突 CATWK 编辑于 2025-02-08 08:44
[6 楼] radius [泡菜] 2-7 19:52 为啥非要在本地跑？有保密需求？可以咸鱼买个tesla M40 24G 显卡，不到1000。可能是性价比最高的跑AI得硬件了。不过就算这样也不如API合算，1000块钱可以处理几亿个token了，你有啥资料需要那么多token ？
[5 楼] CATWK [泡菜] 2-7 09:05 1.5b, 7b, 8b, 14b都装过，全胡说八道的完全不能用，14b还好点，要不是显存所限尽量装大的