M4 Max和M3 Ultra的Mac Studio上架了。
4610 65
[1 楼] duoduobear [Canon论坛版主]
3-6 16:42
如题

[66 楼] 虚化 [资深泡菜]
3-15 21:33
Trompette 发表于 2025-03-15 12:19
是这样的,所以老黄在计算中心卡上同时用了 HBM 和高速互联。
普通专业卡只支持 PCIe 直连。游戏卡啥也没有,显存上限只有专业卡的一半。

排除游戏卡,计算卡显存带宽2T到8T,是m3ultra的2.5~9倍,如果单卡价格超过m3ultra的2.5~9倍,性价比就可能低于m3ultra,还存在有钱都买不到的可能性
m3ultra的问题是不能跑超过512G的模型,并且只适合推理不适合训练,中小公司如果只用来推理,m3ultra貌似也是个合理的选项
[65 楼] arondes [陈年泡菜]
3-15 14:07
虚化 发表于 2025-03-15 10:08
N个任务并发不降速的前提是单个任务时GPU和内存带宽占用率同时低于1/N
当GPU或内存带宽100%占用时,增加任务只会导致每个任务的t/s都变慢
80G*8卡8路并发时如果GPU和内存带宽占用率同时低于1/8,才可能64路并发不降速

我讨论不是降速不降速的问题,而是能不能的问题
比如一般的对话场景,速度降低到10t/s不会让用户觉得不流畅
[64 楼] 一晴方觉夏深 [泡菜]
3-15 12:23
arondes 发表于 2025-03-12 08:44
实测数字


当年M3刚出来的时候,好像评测说它只比M2性能强一点点,不值得。怎么两款的ultra版本相差那么多?
[63 楼] Trompette [泡菜]
3-15 12:19
虚化 发表于 2025-03-15 10:08
N个任务并发不降速的前提是单个任务时GPU和内存带宽占用率同时低于1/N
当GPU或内存带宽100%占用时,增加任务只会导致每个任务的t/s都变慢
80G*8卡8路并发时如果GPU和内存带宽占用率同时低于1/8,才可能64路并发不降速

是这样的,所以老黄在计算中心卡上同时用了 HBM 和高速互联。
普通专业卡只支持 PCIe 直连。游戏卡啥也没有,显存上限只有专业卡的一半。
[62 楼] 虚化 [资深泡菜]
3-15 10:08
arondes 发表于 2025-03-15 02:09
不是这样的
你就算一个处理器,不是也可以开很多进程吗

N个任务并发不降速的前提是单个任务时GPU和内存带宽占用率同时低于1/N
当GPU或内存带宽100%占用时,增加任务只会导致每个任务的t/s都变慢
80G*8卡8路并发时如果GPU和内存带宽占用率同时低于1/8,才可能64路并发不降速
[61 楼] arondes [陈年泡菜]
3-15 02:09
虚化 发表于 2025-03-14 09:47
理想条件下8卡最多做到8路并发吧?能做到64路并发是什么原因?

不是这样的
你就算一个处理器,不是也可以开很多进程吗
[60 楼] 虚化 [资深泡菜]
3-14 18:03
Trompette 发表于 2025-03-14 17:55
你可以把一张专业推理卡看成多车道的高速公路
一辆车能跑 300km/h,四辆车也能跑 300km/h(并排跑)
二十辆车也能跑 300km/h(先后跑),但要留足车距,而且收费站不能耽误
五十辆车就只能跑 80km/h(速度差异会引起超车变道),两百...

前提条件是一张卡的算力和内存带宽够跑8路并发,否则哪来的资源?
[59 楼] Trompette [泡菜]
3-14 17:55
虚化 发表于 2025-03-14 09:47
理想条件下8卡最多做到8路并发吧?能做到64路并发是什么原因?

你可以把一张专业推理卡看成多车道的高速公路

一辆车能跑 300km/h,四辆车也能跑 300km/h(并排跑)
二十辆车也能跑 300km/h(先后跑),但要留足车距,而且收费站不能耽误
五十辆车就只能跑 80km/h(速度差异会引起超车变道),两百辆就堵在收费站了

单机太多小卡推理
好比300公里距离,要上下高速40次(40卡),高速省下的时间,被收费站和绕行(多卡间通讯)霍霍完了
可能还不如全程省道(纯CPU)
[58 楼] 虚化 [资深泡菜]
3-14 09:47
Trompette 发表于 2025-03-13 20:46
相同的卡,正常并发数量和单发性能可以看作差不多独立的指标
不会因为并发少了,单发就会更快
在一定数量下,并发多少速度都差不多,并发超过一定限度,速度才会变慢
这个限度和卡,和上下文,和模型都有关
要求 20t/s 略尴尬,A100只能14左右,H10...

理想条件下8卡最多做到8路并发吧?能做到64路并发是什么原因?
[57 楼] duoduobear [Canon论坛版主]
3-14 04:22
ddtx 发表于 2025-03-12 17:02
还能这样算?
刚刷到的,有人用两台M4U通过雷电5连接(80GBPS),跑8bit量化的671b,11t/s,但他认为改进软件后可到20t/s.

还没有M4U吧? M3 Ultra或者M4 Max。
[56 楼] Trompette [泡菜]
3-13 20:46
虚化 发表于 2025-03-13 20:06
多谢
80g x 8卡,如果跑671b Q4,目标性能是每个任务20t/s,大概能支持多少路并发?...

相同的卡,正常并发数量和单发性能可以看作差不多独立的指标
不会因为并发少了,单发就会更快

在一定数量下,并发多少速度都差不多,并发超过一定限度,速度才会变慢
这个限度和卡,和上下文,和模型都有关

要求 20t/s 略尴尬,A100只能14左右,H100能翻番

只是编码根本不用671b
发布自 iOS客户端
[55 楼] 虚化 [资深泡菜]
3-13 20:06
Trompette 发表于 2025-03-13 17:40
分多卡要看算法
如果模型很小,多卡可以建很多docker,并发可以很高
如果模型很大,每张卡只能放1-2层那种,卡间通讯(8卡)开销抵消了硬件加速的优势
单机太多小卡,没有高速互联或者PCIe点对点,纯纯废物一堆,有不如无
80G x8,简单上下文,...
多谢
80g x 8卡,如果跑671b Q4,目标性能是每个任务20t/s,大概能支持多少路并发?
[54 楼] Trompette [泡菜]
3-13 17:40
虚化 发表于 2025-03-12 22:51
就是说分到8个卡可以,分太多卡就多卡通信开销太大?
8个80G的卡,大概能并发多少路?

分多卡要看算法
如果模型很小,多卡可以建很多docker,并发可以很高
如果模型很大,每张卡只能放1-2层那种,卡间通讯(8卡)开销抵消了硬件加速的优势
单机太多小卡,没有高速互联或者PCIe点对点,纯纯废物一堆,有不如无

80G x8,简单上下文,64 并发没问题

还是提一嘴
- 单元编码包括测试用例,简单脚本,UI 生成,70b Qwen 足矣,没必要 Deepseek 全血
- 前后端整套架构不可能频繁迭代,AI 也跑不了太大上下文,最好人写,也可以结合Agent来解耦
- 需求调研目前还得人来做,一句话能做出淘宝的AI不存在
[53 楼] 虚化 [资深泡菜]
3-12 22:51
Trompette 发表于 2025-03-12 21:49
大模型推理,起码单卡 48G 起
如果目标 Deepseek 全血,80G 的8卡,141G 4卡都可以
4080 只有 16G 显存,有不如无
就是说分到8个卡可以,分太多卡就多卡通信开销太大?
8个80G的卡,大概能并发多少路?
[52 楼] Trompette [泡菜]
3-12 21:49
虚化 发表于 2025-03-12 21:28
既然这样,你之前说的企业多路并发用mac不如显卡,那又是什么道理?...

大模型推理,起码单卡 48G 起
如果目标 Deepseek 全血,80G 的8卡,141G 4卡都可以

4080 只有 16G 显存,有不如无
发布自 iOS客户端
[51 楼] 虚化 [资深泡菜]
3-12 21:28
Trompette 发表于 2025-03-12 19:49
671bQ4 的模型大小 404G,512G 内存只能带起 16k 上下文
432G 估计只够问 3.9 和 3.11 哪个大
671bQ4 模型一共有61层,每层有 6.6G,一张 4080 只能放 2层(每层不能拆开),一共需要 31张才能放下
...

既然这样,你之前说的企业多路并发用mac不如显卡,那又是什么道理?
[50 楼] Trompette [泡菜]
3-12 19:49
虚化 发表于 2025-03-12 17:28
671b Q4模型大小404G,算上冗余假设需要432G显存,方案1是用27个4080 16G,方案2是用1个m3u 512G,这两种方案跑起来,并发数对比会如何?

671bQ4 的模型大小 404G,512G 内存只能带起 16k 上下文
432G 估计只够问 3.9 和 3.11 哪个大

671bQ4 模型一共有61层,每层有 6.6G,一张 4080 只能放 2层(每层不能拆开),一共需要 31张才能放下
就算全放下后,算了前向就不能算后向,极度依赖互联带宽,效率极差,目测跑不过纯 CPU,更不用说和 M3U 比
[49 楼] 虚化 [资深泡菜]
3-12 19:10
ddtx 发表于 2025-03-12 17:54
我没有能力比,多张显卡算力是增加的,而不止是内存增加,但如何在显卡间分配资源和调度太复杂了,也许可以参考DS的论文和开源项目...

浮点算力和内存带宽都是n倍,的确可以有多倍的并发性能,最理想情况可以有n倍
看来超大显存的mac只适用于单用户跑大模型,多用户并发跑大模型还是多个显卡或者多个小显存mac更合理
发布自 安卓客户端
[48 楼] ddtx [泡菜]
3-12 17:54
虚化 发表于 2025-03-12 17:28
671b Q4模型大小404G,算上冗余假设需要432G显存,方案1是用27个4080 16G,方案2是用1个m3u 512G,这两种方案跑起来,并发数对比会如何?

我没有能力比,多张显卡算力是增加的,而不止是内存增加,但如何在显卡间分配资源和调度太复杂了,也许可以参考DS的论文和开源项目
[47 楼] 虚化 [资深泡菜]
3-12 17:28
ddtx 发表于 2025-03-12 14:34
浮点计算能力x显存带宽,M4U这两个值之乘积看起来就是4080的水准
pugetsystems网站做过显卡跑LLM速度的测试,从他们给出的分数看,RTX30,40,50系显卡的速度排名看起来就是这两个值的乘法。算力相同带宽高的胜,带宽相同算力高的胜,...

671b Q4模型大小404G,算上冗余假设需要432G显存,方案1是用27个4080 16G,方案2是用1个m3u 512G,这两种方案跑起来,并发数对比会如何?
[46 楼] ddtx [泡菜]
3-12 17:02
虚化 发表于 2025-03-12 15:45
那就是说m3ultra 512g跟32个4080并发能力一样,比22个4090低2倍多?

还能这样算?
刚刷到的,有人用两台M4U通过雷电5连接(80GBPS),跑8bit量化的671b,11t/s,但他认为改进软件后可到20t/s.
[45 楼] 虚化 [资深泡菜]
3-12 15:45
ddtx 发表于 2025-03-12 14:34
浮点计算能力x显存带宽,M4U这两个值之乘积看起来就是4080的水准
pugetsystems网站做过显卡跑LLM速度的测试,从他们给出的分数看,RTX30,40,50系显卡的速度排名看起来就是这两个值的乘法。算力相同带宽高的胜,带宽相同算力高的胜,...

那就是说m3ultra 512g跟32个4080并发能力一样,比22个4090低2倍多?
发布自 安卓客户端
[44 楼] ddtx [泡菜]
3-12 14:34
虚化 发表于 2025-03-12 13:23
4090并发能力更强的原因是什么?

浮点计算能力x显存带宽,M4U这两个值之乘积看起来就是4080的水准
pugetsystems网站做过显卡跑LLM速度的测试,从他们给出的分数看,RTX30,40,50系显卡的速度排名看起来就是这两个值的乘法。算力相同带宽高的胜,带宽相同算力高的胜,so 3080Ti>4080。
[43 楼] 虚化 [资深泡菜]
3-12 13:23
ddtx 发表于 2025-03-12 11:21
DS的模型是MoE结构的,超过37G显存后速度与如何分配其余的层和专家,再如何调度它们也有影响。
从它跑14b模型的t/s看,M4U的GPU计算能力比4070ti super或4080略弱一点,卖点是大显存。
虽然速度不错,个人用不错,但需要一定的并...

4090并发能力更强的原因是什么?
发布自 安卓客户端
[42 楼] 虚化 [资深泡菜]
3-12 13:20
duoduobear 发表于 2025-03-12 10:53
671B比70B跑得还快,有点意思。为啥呢?...

瞎猜一下:671b支持moe,每次只激活37b,70b不支持moe所以参数量更大所以更慢
发布自 安卓客户端
[41 楼] arondes [陈年泡菜]
3-12 12:54
ddtx 发表于 2025-03-12 11:21
DS的模型是MoE结构的,超过37G显存后速度与如何分配其余的层和专家,再如何调度它们也有影响。
从它跑14b模型的t/s看,M4U的GPU计算能力比4070ti super或4080略弱一点,卖点是大显存。
虽然速度不错,个人用不错,但需要一定的并...

并发的话 买很多台mac studio放在一起就可以了
这个成本可能不算太高
[40 楼] arondes [陈年泡菜]
3-12 12:49
duoduobear 发表于 2025-03-12 10:53
671B比70B跑得还快,有点意思。为啥呢?

671B采用MOE架构 只会激活37B
所以这里内存的限制是能不能放下它
我推测 如果能给4090焊上几百G显存也能跑 只是这不存在
[39 楼] ddtx [泡菜]
3-12 11:21
duoduobear 发表于 2025-03-12 10:53
671B比70B跑得还快,有点意思。为啥呢?

DS的模型是MoE结构的,超过37G显存后速度与如何分配其余的层和专家,再如何调度它们也有影响。
从它跑14b模型的t/s看,M4U的GPU计算能力比4070ti super或4080略弱一点,卖点是大显存。
虽然速度不错,个人用不错,但需要一定的并发连接的话4090这类的显卡仍然是必须的
[38 楼] zzz1 [老坛泡菜]
3-12 10:59
duoduobear 发表于 2025-03-12 10:53
671B比70B跑得还快,有点意思。为啥呢?

看来等过几年,硬件设备发展了,个人单机版就是常态化了