M4 Max和M3 Ultra的Mac Studio上架了。
4610
65
[1 楼] duoduobear
[Canon论坛版主]
3-6 16:42
如题
![]() |
[66 楼] 虚化
[资深泡菜]
3-15 21:33
Trompette 发表于 2025-03-15 12:19 排除游戏卡,计算卡显存带宽2T到8T,是m3ultra的2.5~9倍,如果单卡价格超过m3ultra的2.5~9倍,性价比就可能低于m3ultra,还存在有钱都买不到的可能性 m3ultra的问题是不能跑超过512G的模型,并且只适合推理不适合训练,中小公司如果只用来推理,m3ultra貌似也是个合理的选项 |
[65 楼] arondes
[陈年泡菜]
3-15 14:07
虚化 发表于 2025-03-15 10:08 我讨论不是降速不降速的问题,而是能不能的问题 比如一般的对话场景,速度降低到10t/s不会让用户觉得不流畅 |
[64 楼] 一晴方觉夏深
[泡菜]
3-15 12:23
arondes 发表于 2025-03-12 08:44 当年M3刚出来的时候,好像评测说它只比M2性能强一点点,不值得。怎么两款的ultra版本相差那么多? |
[63 楼] Trompette
[泡菜]
3-15 12:19
虚化 发表于 2025-03-15 10:08 是这样的,所以老黄在计算中心卡上同时用了 HBM 和高速互联。 普通专业卡只支持 PCIe 直连。游戏卡啥也没有,显存上限只有专业卡的一半。 |
[62 楼] 虚化
[资深泡菜]
3-15 10:08
arondes 发表于 2025-03-15 02:09 N个任务并发不降速的前提是单个任务时GPU和内存带宽占用率同时低于1/N 当GPU或内存带宽100%占用时,增加任务只会导致每个任务的t/s都变慢 80G*8卡8路并发时如果GPU和内存带宽占用率同时低于1/8,才可能64路并发不降速 |
[61 楼] arondes
[陈年泡菜]
3-15 02:09
虚化 发表于 2025-03-14 09:47 不是这样的 你就算一个处理器,不是也可以开很多进程吗 ![]() |
[60 楼] 虚化
[资深泡菜]
3-14 18:03
Trompette 发表于 2025-03-14 17:55 前提条件是一张卡的算力和内存带宽够跑8路并发,否则哪来的资源? |
[59 楼] Trompette
[泡菜]
3-14 17:55
虚化 发表于 2025-03-14 09:47 你可以把一张专业推理卡看成多车道的高速公路 一辆车能跑 300km/h,四辆车也能跑 300km/h(并排跑) 二十辆车也能跑 300km/h(先后跑),但要留足车距,而且收费站不能耽误 五十辆车就只能跑 80km/h(速度差异会引起超车变道),两百辆就堵在收费站了 单机太多小卡推理 好比300公里距离,要上下高速40次(40卡),高速省下的时间,被收费站和绕行(多卡间通讯)霍霍完了 可能还不如全程省道(纯CPU) |
[58 楼] 虚化
[资深泡菜]
3-14 09:47
Trompette 发表于 2025-03-13 20:46 理想条件下8卡最多做到8路并发吧?能做到64路并发是什么原因? |
[57 楼] duoduobear
[Canon论坛版主]
3-14 04:22
ddtx 发表于 2025-03-12 17:02 还没有M4U吧? M3 Ultra或者M4 Max。 |
[56 楼] Trompette
[泡菜]
3-13 20:46
虚化 发表于 2025-03-13 20:06 相同的卡,正常并发数量和单发性能可以看作差不多独立的指标 不会因为并发少了,单发就会更快 在一定数量下,并发多少速度都差不多,并发超过一定限度,速度才会变慢 这个限度和卡,和上下文,和模型都有关 要求 20t/s 略尴尬,A100只能14左右,H100能翻番 只是编码根本不用671b 发布自 iOS客户端 |
[55 楼] 虚化
[资深泡菜]
3-13 20:06
Trompette 发表于 2025-03-13 17:40 ![]() 80g x 8卡,如果跑671b Q4,目标性能是每个任务20t/s,大概能支持多少路并发? |
[54 楼] Trompette
[泡菜]
3-13 17:40
虚化 发表于 2025-03-12 22:51 分多卡要看算法 如果模型很小,多卡可以建很多docker,并发可以很高 如果模型很大,每张卡只能放1-2层那种,卡间通讯(8卡)开销抵消了硬件加速的优势 单机太多小卡,没有高速互联或者PCIe点对点,纯纯废物一堆,有不如无 80G x8,简单上下文,64 并发没问题 还是提一嘴 - 单元编码包括测试用例,简单脚本,UI 生成,70b Qwen 足矣,没必要 Deepseek 全血 - 前后端整套架构不可能频繁迭代,AI 也跑不了太大上下文,最好人写,也可以结合Agent来解耦 - 需求调研目前还得人来做,一句话能做出淘宝的AI不存在 |
[53 楼] 虚化
[资深泡菜]
3-12 22:51
Trompette 发表于 2025-03-12 21:49 8个80G的卡,大概能并发多少路? |
[52 楼] Trompette
[泡菜]
3-12 21:49
虚化 发表于 2025-03-12 21:28 大模型推理,起码单卡 48G 起 如果目标 Deepseek 全血,80G 的8卡,141G 4卡都可以 4080 只有 16G 显存,有不如无 发布自 iOS客户端 |
[51 楼] 虚化
[资深泡菜]
3-12 21:28
Trompette 发表于 2025-03-12 19:49 既然这样,你之前说的企业多路并发用mac不如显卡,那又是什么道理? |
[50 楼] Trompette
[泡菜]
3-12 19:49
虚化 发表于 2025-03-12 17:28 671bQ4 的模型大小 404G,512G 内存只能带起 16k 上下文 432G 估计只够问 3.9 和 3.11 哪个大 671bQ4 模型一共有61层,每层有 6.6G,一张 4080 只能放 2层(每层不能拆开),一共需要 31张才能放下 就算全放下后,算了前向就不能算后向,极度依赖互联带宽,效率极差,目测跑不过纯 CPU,更不用说和 M3U 比 |
[49 楼] 虚化
[资深泡菜]
3-12 19:10
ddtx 发表于 2025-03-12 17:54 浮点算力和内存带宽都是n倍,的确可以有多倍的并发性能,最理想情况可以有n倍 看来超大显存的mac只适用于单用户跑大模型,多用户并发跑大模型还是多个显卡或者多个小显存mac更合理 发布自 安卓客户端 |
[48 楼] ddtx
[泡菜]
3-12 17:54
虚化 发表于 2025-03-12 17:28 我没有能力比,多张显卡算力是增加的,而不止是内存增加,但如何在显卡间分配资源和调度太复杂了,也许可以参考DS的论文和开源项目 |
[47 楼] 虚化
[资深泡菜]
3-12 17:28
ddtx 发表于 2025-03-12 14:34 671b Q4模型大小404G,算上冗余假设需要432G显存,方案1是用27个4080 16G,方案2是用1个m3u 512G,这两种方案跑起来,并发数对比会如何? |
[46 楼] ddtx
[泡菜]
3-12 17:02
虚化 发表于 2025-03-12 15:45 还能这样算? 刚刷到的,有人用两台M4U通过雷电5连接(80GBPS),跑8bit量化的671b,11t/s,但他认为改进软件后可到20t/s. |
[45 楼] 虚化
[资深泡菜]
3-12 15:45
ddtx 发表于 2025-03-12 14:34 那就是说m3ultra 512g跟32个4080并发能力一样,比22个4090低2倍多? 发布自 安卓客户端 |
[44 楼] ddtx
[泡菜]
3-12 14:34
虚化 发表于 2025-03-12 13:23 浮点计算能力x显存带宽,M4U这两个值之乘积看起来就是4080的水准 pugetsystems网站做过显卡跑LLM速度的测试,从他们给出的分数看,RTX30,40,50系显卡的速度排名看起来就是这两个值的乘法。算力相同带宽高的胜,带宽相同算力高的胜,so 3080Ti>4080。 |
[43 楼] 虚化
[资深泡菜]
3-12 13:23
ddtx 发表于 2025-03-12 11:21 4090并发能力更强的原因是什么? 发布自 安卓客户端 |
[42 楼] 虚化
[资深泡菜]
3-12 13:20
duoduobear 发表于 2025-03-12 10:53 瞎猜一下:671b支持moe,每次只激活37b,70b不支持moe所以参数量更大所以更慢 发布自 安卓客户端 |
[41 楼] arondes
[陈年泡菜]
3-12 12:54
ddtx 发表于 2025-03-12 11:21 并发的话 买很多台mac studio放在一起就可以了 这个成本可能不算太高 ![]() |
[40 楼] arondes
[陈年泡菜]
3-12 12:49
duoduobear 发表于 2025-03-12 10:53 671B采用MOE架构 只会激活37B 所以这里内存的限制是能不能放下它 我推测 如果能给4090焊上几百G显存也能跑 只是这不存在 |
[39 楼] ddtx
[泡菜]
3-12 11:21
duoduobear 发表于 2025-03-12 10:53 DS的模型是MoE结构的,超过37G显存后速度与如何分配其余的层和专家,再如何调度它们也有影响。 从它跑14b模型的t/s看,M4U的GPU计算能力比4070ti super或4080略弱一点,卖点是大显存。 虽然速度不错,个人用不错,但需要一定的并发连接的话4090这类的显卡仍然是必须的 |
[38 楼] zzz1
[老坛泡菜]
3-12 10:59
duoduobear 发表于 2025-03-12 10:53 看来等过几年,硬件设备发展了,个人单机版就是常态化了 |