M4 Max和M3 Ultra的Mac Studio上架了。
4610
65
[37 楼] duoduobear
[Canon论坛版主]
3-12 10:53
arondes 发表于 2025-03-12 08:44 671B比70B跑得还快,有点意思。为啥呢? |
[36 楼] arondes
[陈年泡菜]
3-12 08:58
这不是满血版,而是Q4量化版,用了450GB左右的内存,已经是单机能跑的上限了。
|
[35 楼] arondes
[陈年泡菜]
3-12 08:44
实测数字
![]() ![]() |
[34 楼] 虚化
[资深泡菜]
3-12 08:10
ddtx 发表于 2025-03-12 02:05 【首发实测:10 万块的顶配 Mac,能跑满血版 DeepSeek 吗?-哔哩哔哩】 https://b23.tv/vXiwBNB 发布自 安卓客户端 |
[33 楼] ddtx
[泡菜]
3-12 02:05
虚化 发表于 2025-03-11 23:58 bilibili_com/video/BV1nKQLY1Esh |
[32 楼] 虚化
[资深泡菜]
3-11 23:58
ddtx 发表于 2025-03-11 22:42 我看到的只有9t/s 发布自 安卓客户端 |
[31 楼] ddtx
[泡菜]
3-11 22:42
YT有人实机测试了,512G的M4 Studio ultra 跑R1 671b q4模型,18t/sec
|
[30 楼] zzz1
[老坛泡菜]
3-11 10:55
arondes 发表于 2025-03-11 10:25 谢谢,我也是看网上的讲座学习了解,照你这么讲,那么以后普通电脑也可以部署自己的本地自己大模型了,真的期待。 其实一般情况下都无所谓,现在大家的顾虑是吧单位或个人的数据都上传给人家了,那么确实有泄密的问题,如果模型小,花钱不多,本地电脑可以部署,那太好了 |
[29 楼] arondes
[陈年泡菜]
3-11 10:25
zzz1 发表于 2025-03-11 10:17 技术的发展思路,就是使得今天的“小”参数的大模型,比如70亿的,达到了两年前700亿参数的大模型的水平。现在还有一个方向是端侧大模型,可能只有比如15亿参数,在手机上可以运行,但是也能解决许多问题。 所以对于个人家用来说,并不需要无限制的规模增大。 |
[28 楼] zzz1
[老坛泡菜]
3-11 10:17
不懂技术,前天听一个上边单位同事讲,他们想本地部署一个单位的大模型,主要是防止数据泄露。打听了要投资300万左右。
那么现在看,如果用苹果这个顶配M3 Ultra,最高512G的内存,那么是不是可以部署个人的大模型知识库了?当然,这代家也不低啊,苹果这个机器也要小10万了。 我这电脑菜鸟,看网上介绍,就现在的deep seek来讲,感觉是够用了。但是是不是将来deep seek还会不断更新增大,那么是不是本地个人部署的又要不断的花钱升级? 那位懂行的给解释下 zzz1 编辑于 2025-03-11 10:18 |
[27 楼] arondes
[陈年泡菜]
3-10 20:59
虚化 发表于 2025-03-09 10:11 问了一下AI,答复是: 假设使用4-bit量化(常见于本地推理优化),单个32B模型 10个并发实例:内存需求:160-200GB,远低于512GB上限,满足要求。带宽需求:200-300GB/s,占800GB/s的25%-37.5%,带宽充足。预计性能:每个实例可能维持8-10 token/s,总体吞吐量80-100 token/s。 |
[26 楼] Trompette
[泡菜]
3-9 13:34
虚化 发表于 2025-03-09 11:44 上无忌找答案,编程方向专精,32b 足够用了,速度和上下文都可以搞到满意 会写诗,会古文,会外语,广泛了解其他领域的知识,对编程的贡献性价比极低,大概率白占资源 |
[25 楼] 虚化
[资深泡菜]
3-9 11:44
Trompette 发表于 2025-03-09 10:48 公司用,当然是671b满血q8或者q4模型,编程语言java c js 发布自 安卓客户端 |
[24 楼] Trompette
[泡菜]
3-9 10:48
虚化 发表于 2025-03-09 08:23 用什么语言?写哪类代码?上下文一般多大? m3 ultra 只在需要大显存时有性价比,因为老黄的专业卡太贵了 对于 20G 以下的编程大模型,目测 4090 48G 是最佳方案 |
[23 楼] 雨过天街
[资深泡菜]
3-9 10:20
arondes 发表于 2025-03-07 15:22 您这是算什么呢?这么暴力 ![]() |
[22 楼] 虚化
[资深泡菜]
3-9 10:11
arondes 发表于 2025-03-09 10:07 敏感代码不能上公网 |
[21 楼] arondes
[陈年泡菜]
3-9 10:07
虚化 发表于 2025-03-09 08:23 不如去买现成的开放API |
[20 楼] 虚化
[资深泡菜]
3-9 08:23
Trompette 发表于 2025-03-09 00:07 200个码农的公司,用来写代码,用m3ultra要多少个多少钱,用老黄家的显卡要多少个多少钱? 发布自 安卓客户端 |
[19 楼] Trompette
[泡菜]
3-9 00:07
虚化 发表于 2025-03-08 22:32 你家电脑跑模型做什么用?价格大概几钱?性价比如何? |
[18 楼] 虚化
[资深泡菜]
3-8 22:32
Trompette 发表于 2025-03-08 19:06 企业用的能有几倍并发数,价格大概几倍,性价比如何? 发布自 安卓客户端 |
[17 楼] Trompette
[泡菜]
3-8 19:06
虚化 发表于 2025-03-07 22:04 单发快,并发不行,不适合企业用 8万块,目测直接让老黄的 Project Digits 128G 生日变祭日 |
[16 楼] 虚化
[资深泡菜]
3-7 22:04
8万块家用太贵了,中小企业买这个是不是比买老黄的显卡便宜?
|
[15 楼] arondes
[陈年泡菜]
3-7 15:22
barenboim 发表于 2025-03-07 14:42 正确用法 ![]() |
[14 楼] arondes
[陈年泡菜]
3-7 15:07
cubaw 发表于 2025-03-07 14:36 对于这边还有一个好处 不限购 随便买 N卡不行 |
[13 楼] barenboim
[泡菜]
3-7 14:42
苹果已经说了不会每一代都有Ultra。毕竟一个是量不大,一个是暴力堆核心数稍微修补一下IO也足够打了
|
[12 楼] cubaw
[陈年泡菜]
3-7 14:36
Tery 发表于 2025-03-06 19:03 M4 Ultra肯定要留给Mac pro了,要不跟M2一样pro太没面子了 感觉应该像macbook air,总体落后MacBookPro一代 |
[11 楼] duoduobear
[Canon论坛版主]
3-7 14:23
arondes 发表于 2025-03-07 11:52 M2 Ultra就已经有800GB/s的内存带宽了。M3 Ultra是819GB/s。 M2 Ultra的系统最多是192GB内存,M3 Ultra的系统最多支持512GB内存。 苹果借助大语言模型的使用需求,会赚一大笔钱。 |
[10 楼] arondes
[陈年泡菜]
3-7 11:52
duoduobear 发表于 2025-03-07 11:05 根据Reddit社区LocalLLaMA上的基准测试数据,M2 Ultra在运行DeepSeek R1 IQ1_S(特定量化版本)时能够达到约13.88 tokens/秒的推理速度2。这一性能表现出人意料地超过了两块H100 GPU的组合,后者在最佳运行状态下仅达到11.53 tokens/秒2。 作为参考,最新发布的M3 Ultra(M2 Ultra的升级版)在运行DeepSeek R1时性能更为出色。根据量子位的报道,EXO Labs使用搭载512GB内存的M3 Ultra的Mac Studio,以20 token每秒的速度成功运行8bit版R11。 The Register的文章则估计,在M3 Ultra上运行4-bit精度的DeepSeek R1时,生成速率可能高达每秒20到30个tokens5。这种提升主要得益于M3 Ultra更强大的处理能力和更高的内存带宽(高达800 GB/s)。 |
[9 楼] duoduobear
[Canon论坛版主]
3-7 11:07
Tery 发表于 2025-03-06 19:03 除了大语言模型,只是日常应用16GB内存很不错了。 |
[8 楼] duoduobear
[Canon论坛版主]
3-7 11:05
arondes 发表于 2025-03-07 08:09 819GB 内存带宽,预计跑DeepSeek 671GB能达到20-40Token/s |