M4 Max和M3 Ultra的Mac Studio上架了。

4610 65

[1 楼] duoduobear [Canon论坛版主] 3-6 16:42 如题
[66 楼] 虚化 [资深泡菜] 3-15 21:33 Trompette 发表于 2025-03-15 12:19 是这样的，所以老黄在计算中心卡上同时用了 HBM 和高速互联。普通专业卡只支持 PCIe 直连。游戏卡啥也没有，显存上限只有专业卡的一半。排除游戏卡，计算卡显存带宽2T到8T，是m3ultra的2.5~9倍，如果单卡价格超过m3ultra的2.5~9倍，性价比就可能低于m3ultra，还存在有钱都买不到的可能性 m3ultra的问题是不能跑超过512G的模型，并且只适合推理不适合训练，中小公司如果只用来推理，m3ultra貌似也是个合理的选项
[65 楼] arondes [陈年泡菜] 3-15 14:07 虚化发表于 2025-03-15 10:08 N个任务并发不降速的前提是单个任务时GPU和内存带宽占用率同时低于1/N 当GPU或内存带宽100%占用时，增加任务只会导致每个任务的t/s都变慢 80G*8卡8路并发时如果GPU和内存带宽占用率同时低于1/8，才可能64路并发不降速我讨论不是降速不降速的问题，而是能不能的问题比如一般的对话场景，速度降低到10t/s不会让用户觉得不流畅
[64 楼] 一晴方觉夏深 [泡菜] 3-15 12:23 arondes 发表于 2025-03-12 08:44 实测数字当年M3刚出来的时候，好像评测说它只比M2性能强一点点，不值得。怎么两款的ultra版本相差那么多？
[63 楼] Trompette [泡菜] 3-15 12:19 虚化发表于 2025-03-15 10:08 N个任务并发不降速的前提是单个任务时GPU和内存带宽占用率同时低于1/N 当GPU或内存带宽100%占用时，增加任务只会导致每个任务的t/s都变慢 80G*8卡8路并发时如果GPU和内存带宽占用率同时低于1/8，才可能64路并发不降速是这样的，所以老黄在计算中心卡上同时用了 HBM 和高速互联。普通专业卡只支持 PCIe 直连。游戏卡啥也没有，显存上限只有专业卡的一半。
[62 楼] 虚化 [资深泡菜] 3-15 10:08 arondes 发表于 2025-03-15 02:09 不是这样的你就算一个处理器，不是也可以开很多进程吗 N个任务并发不降速的前提是单个任务时GPU和内存带宽占用率同时低于1/N 当GPU或内存带宽100%占用时，增加任务只会导致每个任务的t/s都变慢 80G*8卡8路并发时如果GPU和内存带宽占用率同时低于1/8，才可能64路并发不降速
[61 楼] arondes [陈年泡菜] 3-15 02:09 虚化发表于 2025-03-14 09:47 理想条件下8卡最多做到8路并发吧？能做到64路并发是什么原因？不是这样的你就算一个处理器，不是也可以开很多进程吗
[60 楼] 虚化 [资深泡菜] 3-14 18:03 Trompette 发表于 2025-03-14 17:55 你可以把一张专业推理卡看成多车道的高速公路一辆车能跑 300km/h，四辆车也能跑 300km/h（并排跑）二十辆车也能跑 300km/h（先后跑），但要留足车距，而且收费站不能耽误五十辆车就只能跑 80km/h（速度差异会引起超车变道），两百... 前提条件是一张卡的算力和内存带宽够跑8路并发，否则哪来的资源？
[59 楼] Trompette [泡菜] 3-14 17:55 虚化发表于 2025-03-14 09:47 理想条件下8卡最多做到8路并发吧？能做到64路并发是什么原因？你可以把一张专业推理卡看成多车道的高速公路一辆车能跑 300km/h，四辆车也能跑 300km/h（并排跑）二十辆车也能跑 300km/h（先后跑），但要留足车距，而且收费站不能耽误五十辆车就只能跑 80km/h（速度差异会引起超车变道），两百辆就堵在收费站了单机太多小卡推理好比300公里距离，要上下高速40次（40卡），高速省下的时间，被收费站和绕行（多卡间通讯）霍霍完了可能还不如全程省道（纯CPU）
[58 楼] 虚化 [资深泡菜] 3-14 09:47 Trompette 发表于 2025-03-13 20:46 相同的卡，正常并发数量和单发性能可以看作差不多独立的指标不会因为并发少了，单发就会更快在一定数量下，并发多少速度都差不多，并发超过一定限度，速度才会变慢这个限度和卡，和上下文，和模型都有关要求 20t/s 略尴尬，A100只能14左右，H10... 理想条件下8卡最多做到8路并发吧？能做到64路并发是什么原因？
[57 楼] duoduobear [Canon论坛版主] 3-14 04:22 ddtx 发表于 2025-03-12 17:02 还能这样算？刚刷到的，有人用两台M4U通过雷电5连接（80GBPS），跑8bit量化的671b，11t/s，但他认为改进软件后可到20t/s. 还没有M4U吧？ M3 Ultra或者M4 Max。
[56 楼] Trompette [泡菜] 3-13 20:46 虚化发表于 2025-03-13 20:06 多谢 80g x 8卡，如果跑671b Q4，目标性能是每个任务20t/s，大概能支持多少路并发？... 相同的卡，正常并发数量和单发性能可以看作差不多独立的指标不会因为并发少了，单发就会更快在一定数量下，并发多少速度都差不多，并发超过一定限度，速度才会变慢这个限度和卡，和上下文，和模型都有关要求 20t/s 略尴尬，A100只能14左右，H100能翻番只是编码根本不用671b 发布自 iOS客户端
[55 楼] 虚化 [资深泡菜] 3-13 20:06 Trompette 发表于 2025-03-13 17:40 分多卡要看算法如果模型很小，多卡可以建很多docker，并发可以很高如果模型很大，每张卡只能放1-2层那种，卡间通讯（8卡）开销抵消了硬件加速的优势单机太多小卡，没有高速互联或者PCIe点对点，纯纯废物一堆，有不如无 80G x8，简单上下文，... 多谢 80g x 8卡，如果跑671b Q4，目标性能是每个任务20t/s，大概能支持多少路并发？
[54 楼] Trompette [泡菜] 3-13 17:40 虚化发表于 2025-03-12 22:51 就是说分到8个卡可以，分太多卡就多卡通信开销太大？ 8个80G的卡，大概能并发多少路？分多卡要看算法如果模型很小，多卡可以建很多docker，并发可以很高如果模型很大，每张卡只能放1-2层那种，卡间通讯（8卡）开销抵消了硬件加速的优势单机太多小卡，没有高速互联或者PCIe点对点，纯纯废物一堆，有不如无 80G x8，简单上下文，64 并发没问题还是提一嘴 - 单元编码包括测试用例，简单脚本，UI 生成，70b Qwen 足矣，没必要 Deepseek 全血 - 前后端整套架构不可能频繁迭代，AI 也跑不了太大上下文，最好人写，也可以结合Agent来解耦 - 需求调研目前还得人来做，一句话能做出淘宝的AI不存在
[53 楼] 虚化 [资深泡菜] 3-12 22:51 Trompette 发表于 2025-03-12 21:49 大模型推理，起码单卡 48G 起如果目标 Deepseek 全血，80G 的8卡，141G 4卡都可以 4080 只有 16G 显存，有不如无就是说分到8个卡可以，分太多卡就多卡通信开销太大？ 8个80G的卡，大概能并发多少路？
[52 楼] Trompette [泡菜] 3-12 21:49 虚化发表于 2025-03-12 21:28 既然这样，你之前说的企业多路并发用mac不如显卡，那又是什么道理？... 大模型推理，起码单卡 48G 起如果目标 Deepseek 全血，80G 的8卡，141G 4卡都可以 4080 只有 16G 显存，有不如无发布自 iOS客户端
[51 楼] 虚化 [资深泡菜] 3-12 21:28 Trompette 发表于 2025-03-12 19:49 671bQ4 的模型大小 404G，512G 内存只能带起 16k 上下文 432G 估计只够问 3.9 和 3.11 哪个大 671bQ4 模型一共有61层，每层有 6.6G，一张 4080 只能放 2层（每层不能拆开），一共需要 31张才能放下 ... 既然这样，你之前说的企业多路并发用mac不如显卡，那又是什么道理？
[50 楼] Trompette [泡菜] 3-12 19:49 虚化发表于 2025-03-12 17:28 671b Q4模型大小404G，算上冗余假设需要432G显存，方案1是用27个4080 16G，方案2是用1个m3u 512G，这两种方案跑起来，并发数对比会如何？ 671bQ4 的模型大小 404G，512G 内存只能带起 16k 上下文 432G 估计只够问 3.9 和 3.11 哪个大 671bQ4 模型一共有61层，每层有 6.6G，一张 4080 只能放 2层（每层不能拆开），一共需要 31张才能放下就算全放下后，算了前向就不能算后向，极度依赖互联带宽，效率极差，目测跑不过纯 CPU，更不用说和 M3U 比
[49 楼] 虚化 [资深泡菜] 3-12 19:10 ddtx 发表于 2025-03-12 17:54 我没有能力比，多张显卡算力是增加的，而不止是内存增加，但如何在显卡间分配资源和调度太复杂了，也许可以参考DS的论文和开源项目... 浮点算力和内存带宽都是n倍，的确可以有多倍的并发性能，最理想情况可以有n倍看来超大显存的mac只适用于单用户跑大模型，多用户并发跑大模型还是多个显卡或者多个小显存mac更合理发布自安卓客户端
[48 楼] ddtx [泡菜] 3-12 17:54 虚化发表于 2025-03-12 17:28 671b Q4模型大小404G，算上冗余假设需要432G显存，方案1是用27个4080 16G，方案2是用1个m3u 512G，这两种方案跑起来，并发数对比会如何？我没有能力比，多张显卡算力是增加的，而不止是内存增加，但如何在显卡间分配资源和调度太复杂了，也许可以参考DS的论文和开源项目
[47 楼] 虚化 [资深泡菜] 3-12 17:28 ddtx 发表于 2025-03-12 14:34 浮点计算能力x显存带宽，M4U这两个值之乘积看起来就是4080的水准 pugetsystems网站做过显卡跑LLM速度的测试，从他们给出的分数看，RTX30，40，50系显卡的速度排名看起来就是这两个值的乘法。算力相同带宽高的胜，带宽相同算力高的胜，... 671b Q4模型大小404G，算上冗余假设需要432G显存，方案1是用27个4080 16G，方案2是用1个m3u 512G，这两种方案跑起来，并发数对比会如何？
[46 楼] ddtx [泡菜] 3-12 17:02 虚化发表于 2025-03-12 15:45 那就是说m3ultra 512g跟32个4080并发能力一样，比22个4090低2倍多？还能这样算？刚刷到的，有人用两台M4U通过雷电5连接（80GBPS），跑8bit量化的671b，11t/s，但他认为改进软件后可到20t/s.
[45 楼] 虚化 [资深泡菜] 3-12 15:45 ddtx 发表于 2025-03-12 14:34 浮点计算能力x显存带宽，M4U这两个值之乘积看起来就是4080的水准 pugetsystems网站做过显卡跑LLM速度的测试，从他们给出的分数看，RTX30，40，50系显卡的速度排名看起来就是这两个值的乘法。算力相同带宽高的胜，带宽相同算力高的胜，... 那就是说m3ultra 512g跟32个4080并发能力一样，比22个4090低2倍多？发布自安卓客户端
[44 楼] ddtx [泡菜] 3-12 14:34 虚化发表于 2025-03-12 13:23 4090并发能力更强的原因是什么？浮点计算能力x显存带宽，M4U这两个值之乘积看起来就是4080的水准 pugetsystems网站做过显卡跑LLM速度的测试，从他们给出的分数看，RTX30，40，50系显卡的速度排名看起来就是这两个值的乘法。算力相同带宽高的胜，带宽相同算力高的胜，so 3080Ti>4080。
[43 楼] 虚化 [资深泡菜] 3-12 13:23 ddtx 发表于 2025-03-12 11:21 DS的模型是MoE结构的，超过37G显存后速度与如何分配其余的层和专家，再如何调度它们也有影响。从它跑14b模型的t/s看，M4U的GPU计算能力比4070ti super或4080略弱一点，卖点是大显存。虽然速度不错，个人用不错，但需要一定的并... 4090并发能力更强的原因是什么？发布自安卓客户端
[42 楼] 虚化 [资深泡菜] 3-12 13:20 duoduobear 发表于 2025-03-12 10:53 671B比70B跑得还快，有点意思。为啥呢？... 瞎猜一下：671b支持moe，每次只激活37b，70b不支持moe所以参数量更大所以更慢发布自安卓客户端
[41 楼] arondes [陈年泡菜] 3-12 12:54 ddtx 发表于 2025-03-12 11:21 DS的模型是MoE结构的，超过37G显存后速度与如何分配其余的层和专家，再如何调度它们也有影响。从它跑14b模型的t/s看，M4U的GPU计算能力比4070ti super或4080略弱一点，卖点是大显存。虽然速度不错，个人用不错，但需要一定的并... 并发的话买很多台mac studio放在一起就可以了这个成本可能不算太高
[40 楼] arondes [陈年泡菜] 3-12 12:49 duoduobear 发表于 2025-03-12 10:53 671B比70B跑得还快，有点意思。为啥呢？ 671B采用MOE架构只会激活37B 所以这里内存的限制是能不能放下它我推测如果能给4090焊上几百G显存也能跑只是这不存在
[39 楼] ddtx [泡菜] 3-12 11:21 duoduobear 发表于 2025-03-12 10:53 671B比70B跑得还快，有点意思。为啥呢？ DS的模型是MoE结构的，超过37G显存后速度与如何分配其余的层和专家，再如何调度它们也有影响。从它跑14b模型的t/s看，M4U的GPU计算能力比4070ti super或4080略弱一点，卖点是大显存。虽然速度不错，个人用不错，但需要一定的并发连接的话4090这类的显卡仍然是必须的
[38 楼] zzz1 [老坛泡菜] 3-12 10:59 duoduobear 发表于 2025-03-12 10:53 671B比70B跑得还快，有点意思。为啥呢？看来等过几年，硬件设备发展了，个人单机版就是常态化了