M4 Max和M3 Ultra的Mac Studio上架了。

4610 65

[37 楼] duoduobear [Canon论坛版主] 3-12 10:53 arondes 发表于 2025-03-12 08:44 实测数字 671B比70B跑得还快，有点意思。为啥呢？
[36 楼] arondes [陈年泡菜] 3-12 08:58 这不是满血版，而是Q4量化版，用了450GB左右的内存，已经是单机能跑的上限了。
[35 楼] arondes [陈年泡菜] 3-12 08:44 实测数字
[34 楼] 虚化 [资深泡菜] 3-12 08:10 ddtx 发表于 2025-03-12 02:05 bilibili_com/video/BV1nKQLY1Esh... 【首发实测：10 万块的顶配 Mac，能跑满血版 DeepSeek 吗？-哔哩哔哩】 https://b23.tv/vXiwBNB 发布自安卓客户端
[33 楼] ddtx [泡菜] 3-12 02:05 虚化发表于 2025-03-11 23:58 我看到的只有9t/s bilibili_com/video/BV1nKQLY1Esh
[32 楼] 虚化 [资深泡菜] 3-11 23:58 ddtx 发表于 2025-03-11 22:42 YT有人实机测试了，512G的M4 Studio ultra 跑R1 671b q4模型，18t/sec... 我看到的只有9t/s 发布自安卓客户端
[31 楼] ddtx [泡菜] 3-11 22:42 YT有人实机测试了，512G的M4 Studio ultra 跑R1 671b q4模型，18t/sec
[30 楼] zzz1 [老坛泡菜] 3-11 10:55 arondes 发表于 2025-03-11 10:25 技术的发展思路，就是使得今天的“小”参数的大模型，比如70亿的，达到了两年前700亿参数的大模型的水平。现在还有一个方向是端侧大模型，可能只有比如15亿参数，在手机上可以运行，但是也能解决许多问题。所以对于个人家用来说，并不需要无限制的规模增大。谢谢，我也是看网上的讲座学习了解，照你这么讲，那么以后普通电脑也可以部署自己的本地自己大模型了，真的期待。其实一般情况下都无所谓，现在大家的顾虑是吧单位或个人的数据都上传给人家了，那么确实有泄密的问题，如果模型小，花钱不多，本地电脑可以部署，那太好了
[29 楼] arondes [陈年泡菜] 3-11 10:25 zzz1 发表于 2025-03-11 10:17 不懂技术，前天听一个上边单位同事讲，他们想本地部署一个单位的大模型，主要是防止数据泄露。打听了要投资300万左右。那么现在看，如果用苹果这个顶配M3 Ultra，最高512G的内存，那么是不是可以部署个人的大模型知识库了？当然，这代家也不低啊，苹果... 技术的发展思路，就是使得今天的“小”参数的大模型，比如70亿的，达到了两年前700亿参数的大模型的水平。现在还有一个方向是端侧大模型，可能只有比如15亿参数，在手机上可以运行，但是也能解决许多问题。所以对于个人家用来说，并不需要无限制的规模增大。
[28 楼] zzz1 [老坛泡菜] 3-11 10:17 不懂技术，前天听一个上边单位同事讲，他们想本地部署一个单位的大模型，主要是防止数据泄露。打听了要投资300万左右。那么现在看，如果用苹果这个顶配M3 Ultra，最高512G的内存，那么是不是可以部署个人的大模型知识库了？当然，这代家也不低啊，苹果这个机器也要小10万了。我这电脑菜鸟，看网上介绍，就现在的deep seek来讲，感觉是够用了。但是是不是将来deep seek还会不断更新增大，那么是不是本地个人部署的又要不断的花钱升级？那位懂行的给解释下 zzz1 编辑于 2025-03-11 10:18
[27 楼] arondes [陈年泡菜] 3-10 20:59 虚化发表于 2025-03-09 10:11 敏感代码不能上公网问了一下AI，答复是：假设使用4-bit量化（常见于本地推理优化），单个32B模型 10个并发实例：内存需求：160-200GB，远低于512GB上限，满足要求。带宽需求：200-300GB/s，占800GB/s的25%-37.5%，带宽充足。预计性能：每个实例可能维持8-10 token/s，总体吞吐量80-100 token/s。
[26 楼] Trompette [泡菜] 3-9 13:34 虚化发表于 2025-03-09 11:44 公司用，当然是671b满血q8或者q4模型，编程语言java c js 上无忌找答案，编程方向专精，32b 足够用了，速度和上下文都可以搞到满意会写诗，会古文，会外语，广泛了解其他领域的知识，对编程的贡献性价比极低，大概率白占资源
[25 楼] 虚化 [资深泡菜] 3-9 11:44 Trompette 发表于 2025-03-09 10:48 用什么语言？写哪类代码？上下文一般多大？ m3 ultra 只在需要大显存时有性价比，因为老黄的专业卡太贵了对于 20G 以下的编程大模型，目测 4090 48G 是最佳方案... 公司用，当然是671b满血q8或者q4模型，编程语言java c js 发布自安卓客户端
[24 楼] Trompette [泡菜] 3-9 10:48 虚化发表于 2025-03-09 08:23 200个码农的公司，用来写代码，用m3ultra要多少个多少钱，用老黄家的显卡要多少个多少钱？用什么语言？写哪类代码？上下文一般多大？ m3 ultra 只在需要大显存时有性价比，因为老黄的专业卡太贵了对于 20G 以下的编程大模型，目测 4090 48G 是最佳方案
[23 楼] 雨过天街 [资深泡菜] 3-9 10:20 arondes 发表于 2025-03-07 15:22 正确用法您这是算什么呢？这么暴力
[22 楼] 虚化 [资深泡菜] 3-9 10:11 arondes 发表于 2025-03-09 10:07 不如去买现成的开放API 敏感代码不能上公网
[21 楼] arondes [陈年泡菜] 3-9 10:07 虚化发表于 2025-03-09 08:23 200个码农的公司，用来写代码，用m3ultra要多少个多少钱，用老黄家的显卡要多少个多少钱？不如去买现成的开放API
[20 楼] 虚化 [资深泡菜] 3-9 08:23 Trompette 发表于 2025-03-09 00:07 你家电脑跑模型做什么用？价格大概几钱？性价比如何？... 200个码农的公司，用来写代码，用m3ultra要多少个多少钱，用老黄家的显卡要多少个多少钱？发布自安卓客户端
[19 楼] Trompette [泡菜] 3-9 00:07 虚化发表于 2025-03-08 22:32 企业用的能有几倍并发数，价格大概几倍，性价比如何？你家电脑跑模型做什么用？价格大概几钱？性价比如何？
[18 楼] 虚化 [资深泡菜] 3-8 22:32 Trompette 发表于 2025-03-08 19:06 单发快，并发不行，不适合企业用 8万块，目测直接让老黄的 Project Digits 128G 生日变祭日... 企业用的能有几倍并发数，价格大概几倍，性价比如何？发布自安卓客户端
[17 楼] Trompette [泡菜] 3-8 19:06 虚化发表于 2025-03-07 22:04 8万块家用太贵了，中小企业买这个是不是比买老黄的显卡便宜？单发快，并发不行，不适合企业用 8万块，目测直接让老黄的 Project Digits 128G 生日变祭日
[16 楼] 虚化 [资深泡菜] 3-7 22:04 8万块家用太贵了，中小企业买这个是不是比买老黄的显卡便宜？
[15 楼] arondes [陈年泡菜] 3-7 15:22 barenboim 发表于 2025-03-07 14:42 苹果已经说了不会每一代都有Ultra。毕竟一个是量不大，一个是暴力堆核心数稍微修补一下IO也足够打了正确用法
[14 楼] arondes [陈年泡菜] 3-7 15:07 cubaw 发表于 2025-03-07 14:36 M4 Ultra肯定要留给Mac pro了，要不跟M2一样pro太没面子了感觉应该像macbook air，总体落后MacBookPro一代对于这边还有一个好处不限购随便买 N卡不行
[13 楼] barenboim [泡菜] 3-7 14:42 苹果已经说了不会每一代都有Ultra。毕竟一个是量不大，一个是暴力堆核心数稍微修补一下IO也足够打了
[12 楼] cubaw [陈年泡菜] 3-7 14:36 Tery 发表于 2025-03-06 19:03 终于更新了啊，Ultra竟然是M3不是M4，担心将来没有升级空间了吗？我倒觉得刚更新的Macbook air入门款性价比不错，16G内存起步，一般活都能干了 M4 Ultra肯定要留给Mac pro了，要不跟M2一样pro太没面子了感觉应该像macbook air，总体落后MacBookPro一代
[11 楼] duoduobear [Canon论坛版主] 3-7 14:23 arondes 发表于 2025-03-07 11:52 根据Reddit社区LocalLLaMA上的基准测试数据，M2 Ultra在运行DeepSeek R1 IQ1_S（特定量化版本）时能够达到约13.88 tokens/秒的推理速度2。这一性能表现出人意料地超过了两块H100 GPU的组合，后者在最佳... M2 Ultra就已经有800GB/s的内存带宽了。M3 Ultra是819GB/s。 M2 Ultra的系统最多是192GB内存，M3 Ultra的系统最多支持512GB内存。苹果借助大语言模型的使用需求，会赚一大笔钱。
[10 楼] arondes [陈年泡菜] 3-7 11:52 duoduobear 发表于 2025-03-07 11:05 819GB 内存带宽，预计跑DeepSeek 671GB能达到20-40Token/s 根据Reddit社区LocalLLaMA上的基准测试数据，M2 Ultra在运行DeepSeek R1 IQ1_S（特定量化版本）时能够达到约13.88 tokens/秒的推理速度2。这一性能表现出人意料地超过了两块H100 GPU的组合，后者在最佳运行状态下仅达到11.53 tokens/秒2。作为参考，最新发布的M3 Ultra（M2 Ultra的升级版）在运行DeepSeek R1时性能更为出色。根据量子位的报道，EXO Labs使用搭载512GB内存的M3 Ultra的Mac Studio，以20 token每秒的速度成功运行8bit版R11。 The Register的文章则估计，在M3 Ultra上运行4-bit精度的DeepSeek R1时，生成速率可能高达每秒20到30个tokens5。这种提升主要得益于M3 Ultra更强大的处理能力和更高的内存带宽（高达800 GB/s）。
[9 楼] duoduobear [Canon论坛版主] 3-7 11:07 Tery 发表于 2025-03-06 19:03 终于更新了啊，Ultra竟然是M3不是M4，担心将来没有升级空间了吗？我倒觉得刚更新的Macbook air入门款性价比不错，16G内存起步，一般活都能干了除了大语言模型，只是日常应用16GB内存很不错了。
[8 楼] duoduobear [Canon论坛版主] 3-7 11:05 arondes 发表于 2025-03-07 08:09 不知道512g的版本跑大模型速度如何 819GB 内存带宽，预计跑DeepSeek 671GB能达到20-40Token/s