聊聊最近几个可以本地部署的AI模型吧
4801
27
[1 楼] bird3000
[陈年泡菜]
3-31 06:45
最近下了几个可以在本地PC上跑效果还不错的几个模型。deepseek 32B.gemma3 27B.QWQ 32B.还挺好玩的,硬件主要就是要有一个24G以上显存的显卡。
|
[28 楼] bird3000
[陈年泡菜]
5-1 18:56
又试了一下qwen3 235B-a22b Q2模型,5T/s。
![]() |
[27 楼] bird3000
[陈年泡菜]
5-1 07:59
试了一下qwen3 30B-a3b,对硬件的要求友好多了,感觉基本16G显存就可以跑起来了,24G显存跑Q8量化版可以到15~20t/s.而且可以开关think算是一个不错的进步,一个模型可以当两个用。
|
[26 楼] couldiy
[泡菜]
4-19 23:34
bird3000 发表于 2025-03-31 06:45 生文,加起来都不如gemini 2.5Pro, 生图,不如gpt4o 还要买个上万元的显卡,不知道有啥好玩的 |
[25 楼] Trompette
[泡菜]
4-15 22:07
闲聊状态 发表于 2025-04-15 14:22 VEGA 10 的顶配 Mi25,14nm 工艺,对标 N 家 1080 VEGA 20 的顶配 Mi50,7nm 工艺,,对标 N 家 2080。 7nm 制程性能比 VEGA 10 快的多 但这俩都没有张量核,现在只能算渣了 |
[24 楼] 闲聊状态
[泡菜]
4-15 14:22
实际上 所谓的正经软件支持 只能是老版本,新时代里 vega 都是渣渣,而跑模型,也不是老版本的就一定能用新模型的,太老的卡,我觉得意义不大。。。当然了 用vulkan 跑 那就是另一个说法了
![]() |
[23 楼] 闲聊状态
[泡菜]
4-15 13:50
Trompette 发表于 2025-04-15 10:35 我现在就在linux下用我的vege56 (Vega 10核心),玩玩游戏 看看视频还行 跑推理基本上也得vulkan,rocm 只支持到5.7,现在ollama lmstuido都要求6.1,6.2以上的了,也就是RDNA3的独显也相对安逸 这玩意确实是便宜 显存也大,考虑到船和未来的软硬件支持环境。。。。 |
[22 楼] bird3000
[陈年泡菜]
4-15 13:17
AMD Instinct MI50 作为一款发布于2018年的7nm工艺计算卡,基于GCN 5.1架构(Vega 20核心),其在大模型(如LLM)训练或推理中的表现需结合硬件规格、显存容量、计算能力及生态支持综合评估。以下是关键分析:
1. 硬件规格与计算性能显存与带宽:MI50配备16GB HBM2显存,4096位宽,带宽达1TB/s 1 8 11 。这一显存容量对于中小规模模型(如7B参数级别)的推理可能勉强够用,但训练大模型(如70B以上)显存会严重不足(大模型训练通常需要≥100GB显存) 13 17 。计算能力:双精度(FP64):6.6-6.7 TFLOPS(刷BIOS解锁后可达7 TFLOPS) 1 2 9 。单精度(FP32):13-15 TFLOPS(超频后) 1 11 。FP16/AI性能:原生支持FP16,但缺乏专用AI加速单元(如Tensor Core),效率低于NVIDIA同类产品 3 6 。对比现代显卡:MI50的双精度性能接近NVIDIA Tesla P100,但远逊于A100(19.5 TFLOPS FP64)或MI300X(192GB显存) 5 17 。2. 大模型适配性显存限制:训练:以7B模型为例,FP16混合精度训练需约97.55GB显存(含参数、梯度、优化器等),MI50的16GB显存无法满足 13 15 。推理:若采用量化(如INT8)或LoRA微调,可能运行小规模模型(如1-3B参数),但长序列推理(>2048 tokens)会因KV Cache显存占用激增而失败 13 14 。软件生态:依赖ROCm平台,虽支持PyTorch等框架,但优化和兼容性不如CUDA,尤其在LLM推理工具(如vLLM)中表现可能较差 18 。3. 能效与性价比功耗:TDP 300W,实际负载中功耗达180-240W,能效比低于NVIDIA P100(130-170W) 1 11 。二手市场:咸鱼价格较低(约700-1000元),但需注意矿卡风险(部分为Radeon VII改装) 1 。若仅用于实验性推理或轻量级AI任务,性价比尚可,但专业场景建议选择MI250(128GB显存)或NVIDIA H100 17 18 。4. 实际应用案例工业建模:MI50在Creo等CAD软件中表现优异(专业驱动加成),但高负载场景性能波动大 1 。AI计算:更适合传统HPC(如科学计算),而非大模型训练。AMD后续MI300X已能单卡部署720B模型,凸显MI50的局限性 17 。总结MI50跑大模型的可行性: 勉强可试:仅适用于小模型(<3B)的量化推理或研究性实验,需严格优化显存(如梯度检查点、LoRA) 13 15 。不推荐:大模型训练或生产级推理需更高显存(≥80GB)和计算效率的现代显卡(如MI300X/H200) 17 18 。若预算有限且需求为轻量级AI任务,MI50可作为过渡选择,但需接受其性能瓶颈和生态限制 |
[21 楼] Trompette
[泡菜]
4-15 10:35
bird3000 发表于 2025-04-15 09:33 闲聊状态 发表于 2025-04-15 08:23 算力是 2080Ti 级别的,比不了 3090,绝对对得起 900 元 显存 32G HBM2,容量和 5090 齐平,速度超过 5090 的 GDDR7 Linux 有正规驱动,跑推理没问题。Windows 下当普通显卡玩游戏太折腾 被动散热,也有不少凑合办法,如果这也完美解决,显然不会卖 900 块 捡垃圾 Intel 9代 + z390 主板 + 双卡 Mi50 能控制在 3000 元内 qwq32b_q8 推理出 12T/s,还有更便宜的不? |
[20 楼] bird3000
[陈年泡菜]
4-15 09:33
Trompette 发表于 2025-04-15 07:46 |
[19 楼] 闲聊状态
[泡菜]
4-15 08:23
Trompette 发表于 2025-04-15 07:46 拿大船和新的比还是不太合适吧。。 大船来的 寿命也不知道如何 尤其是 这卡是给服务器的,给PC用还得改散热,拿来玩小机箱还放不下 |
[18 楼] Trompette
[泡菜]
4-15 07:46
闲聊状态 发表于 2025-04-14 16:31 最近的大船 AMD instinct Mi50 有 32GB HBM2 才 900 块 单卡推理 32b-Q4 能到 12T/s 双卡推理 32b-Q8 也是这个速度,上下文管饱 |
[17 楼] 闲聊状态
[泡菜]
4-14 16:31
bird3000 发表于 2025-04-14 16:14 差距那是不可避免的,显存带宽差距巨大,也就是体验一下而已 8845这种的最大可以支持256G内存,玩玩的话 可以体验更好一点的模型了。。。 速度就别想了,毕竟一分钱一分货吗。。。。毕竟也比CPU跑快那么一点.... 现在ddr5 双通道 100G 4通道 200G,要是换到ddr6 4通道 有400g 基本上到低端显卡的带宽了,只要价格合适也不是不行啊,你看MAC 那边现在不就AI的很快乐呢,显卡显存太贵而且还扣扣搜搜,结果就是导致这些奇怪的办法都上马了 闲聊状态 编辑于 2025-04-14 16:32 |
[16 楼] bird3000
[陈年泡菜]
4-14 16:14
闲聊状态 发表于 2025-04-14 08:35 相对显存,内存还是慢,显卡的算力也不够。这类机器最大的优点是大点的模型能跑起来,只要内存够大,32B,70B,100多B的模型速度都差不多,每秒几个token吧。 |
[15 楼] 闲聊状态
[泡菜]
4-14 10:46
数据表是拉EXECL的,但是32G是我自己在机器上试过的,64G没有试过,另外我也没见过哪家的BIOS可以设置32G显存....
![]() |
[14 楼] 闲聊状态
[泡菜]
4-14 08:35
24G “显存” 最便宜的达成方案 ---- AMD 8745H + 32G 小主机,在bios里把显存设置成16G,然后驱动会从剩下的内存里划一半,加起来 --- 24G
至于速度吗。。。qwq32B q4 3-5 token 吧 |
[13 楼] bird3000
[陈年泡菜]
4-7 14:32
继续玩个人部署,用起来最顺手的居然是gemma3 27B Q4,24G显存,上下文开到12K,速度还能接受.
QWQ 32B Q4,上下文最高8K。推理效果很好,但太慢。主要用来搞RGA,但上下文太小受限制。 |
[12 楼] ddtx
[泡菜]
4-2 10:04
bird3000 发表于 2025-04-02 09:03 不应该指望AI会增加画面细节,多出来的细节取决于原视频是否有足够的信息量,有些网络下载的视频压缩过分,尤其某段时期国内网络流行的RMVB或AVI小视频,处理后看起来更糟,DVD rip未再进一步压缩的还不错。 |
[11 楼] bird3000
[陈年泡菜]
4-2 09:06
机器条件好的可以试试gemma3 32B的模型,比起QWQ更快,输出内容也更“自由”一点。
|
[10 楼] bird3000
[陈年泡菜]
4-2 09:03
bird3000 发表于 2025-04-01 10:07 在电视机上看还是不行,看网上有其他的模型效果要好,但处理速度普通PC根本不行。 |
[9 楼] zxzfyuan
[资深泡菜]
4-1 19:00
视频处理类的模型,太需要这个了
|
[8 楼] zxzfyuan
[资深泡菜]
4-1 19:00
不错
|
[7 楼] ddtx
[泡菜]
4-1 11:06
bird3000 发表于 2025-04-01 10:07 专有调用,直接用Video2X程序就好,程序最新版是6.4.0,模型则是2022年的或更早的,几个模型在Git上也有自己的页面 |
[6 楼] bird3000
[陈年泡菜]
4-1 10:07
ddtx 发表于 2025-04-01 08:58 |
[5 楼] ddtx
[泡菜]
4-1 08:58
bird3000 发表于 2025-04-01 06:44 Video2x内置的Real-ESRGUN和Real-CUGAN两个模型还是很快的,4060跑DVD规格480p片大约0.7倍的帧率,4080和5070Ti 跑大约1.5倍的帧率,libplacebo模型就慢了,1~2 fps。Real-ESRGUN是用纯动漫训练的,处理后有卡通感。Real-CUGAN用动漫和普通视频训练,也适合处理处理实拍影片,结果略为过度锐化,轻微卡通化,但比起原片画面改进很多,大显示器上看比原片更好接受 |
[4 楼] bird3000
[陈年泡菜]
4-1 06:44
ddtx 发表于 2025-04-01 01:59 |
[3 楼] bird3000
[陈年泡菜]
4-1 06:42
嗯,是的,这三个模型功能有重叠,gemma3 27B不错,可以识别图片可以玩很多东西,不过感觉效果还差一点,可能我用的是Q4的模型。DEEPSEEK基本不用了,QWQ基本可以代替了。
|
[2 楼] ddtx
[泡菜]
4-1 01:59
一個QWQ32足夠了,編程嫌QWQ有推理過程的話QWen2.5-code 32b也能湊合。
不過最近消耗我電量最多的AI模型是B站的Real-Cugan,由Video2x程序內置,把手上DVD時代和720P以下的下載舊視頻收藏做了一次2x,效果不錯,稍微些過度銳化。當然還可以用Topaz,不過Topaz Video AI用的也是國內開源模型,加了個更好的外殼而已。 字幕軟件SubtitleEdit支持本地ollama模型翻譯字幕,可用的模型是llama和Qwen,可以在翻譯高級選項裡修改設置翻譯一些提示給模型。因此期待QWen3發布。 語音轉字幕程序用的是Git上開源的Buzz,使用OpenAI開源的STT模型,至少英語識別率極高,重度土澳和三哥口音都能準確識別,別的語言暫時還未試過。 |