在Intel核显笔记本上部署本地AI模型的折腾记
1148
4
|
[1 楼] 色色熊
[泡菜]
4-20 11:16
前一阵龙虾热闹,关注了一下,发现说龙虾很费钱(买token),于是想到AI模型的本地部署,产生了些兴趣,想在我用的笔记本上装一个玩玩。
并不打算玩儿龙虾,我没那种应用需求,单纯就是想玩玩模型。 笔记本配置是: ultra5 125H CPU,核显 Intel Arc™,有 7 个 Xe 核心 与 112 个执行单元 (EU),最高动态频率2.2GHz,性能表现约等于 GTX 1650 独立显卡。 买的时候考虑了PS吞吃内存,配置了64GB DDR5。 升级显卡驱动,英特尔可在内存中分配36GB作为共享显存。 我对AI模型24K纯小白,原先一直都不知道token是什么,所以装模型玩儿都是在云端大模型的app指导下进行,用到了豆包、千问和元宝,这三个app中,豆包比较热情,能提供很详细的手把手教程;元宝比较严谨和保守,适合控制期望的边界;我要装的是qwen的开源模型,问千问觉得比较正宗。 一开始按常规,装了ollama作为模型管理和运行工具(我都不知道所谓模型就是一堆数据,需要一个运行环境来跑)。 拉了qwen3.5 35b下来一跑,卡的找不到北。按这几个AI app的建议,又拉了个小体量的qwen3.5 9b,能运行了,2、3topen/秒。 这速度还玩儿个鬼啊。 不甘心,找信息,才知道有个英特尔优化版的ollama。原生的ollama只对英伟达的N卡有支持,我装了就一直在用cpu跑,必须慢。 把英特尔优化版ollama下载装上,遇到新问题:这个英特尔优化基于的是0.9.3版的原生ollama,根本不支持qwen3.5这种新架构模型。 降级,跑qwen2.5吧,拉来了7b、14b和32b三个模型。优化过的ollama能用核显了,这三个不同大小的模型速度分别是8、5、3.5 token/秒。 继续不甘心。 问元宝说有没有国内可替代ollama的工具,元宝说有个叫玄武的,专门支持国产那些显卡,也能支持intel核显。挺高兴的去玄武官网看了看,运行环境linux。 干脆一咬牙,上linux吧。 翻出一个128GB的移动SSD,开始在豆包指导下装ubuntu。对linux与对AI模型一样,也是两眼一抹黑,所以按豆包说法亦步亦趋,中间必然问题重重,补丁摞补丁的装好了。一跑,ollama还是不认核显。 又折腾了两天,各种方法,各种工具,LM studio、玄武ctl都试了,还是不行啊不行。 最后豆包说,可能是Intel在linux上的显卡驱动不行,按其说法是,linux不像windows被Intel重视,所以显卡驱动在支持模型运行方面的稳定性不足。我反正不懂,豆包说啥就是啥吧。 回归windows。 (以前从没关注过linux,这次试了一下,还真别说,虽然跑模型没成功,但其他的比如WPS office、微信、QQ等等常规应用,都跑的很稳定,已经可以在日常使用中替掉windows了,火狐浏览器也不错,上无忌没任何问题) 能想到的都试了,认命吧。 然后就又发现英特尔优化版的ollama能支持qwen3,那就至少把qwen2.5升级到qwen3吧,聊以自慰,至少后出的版本训练数据新一些。 下载qwen3 8b\14b\32b,速度比2.5还都降了一些,为了训练数据新一点儿也认了,反正都慢。 本来也就玩儿到这儿为止了,峰回路转,看到一个说法说,虽然英特尔优化版基于0.9.3的ollama支持不了MoE专家模式的模型,但英特尔优化的最新版本总体上却是可以跑MoE的模型。 再试。 下载qwen3 30b-a3b,这是个MoE模式的模型,30b的体量3b的高速,一试,跑通了。 速度吓我一跳,18+token/秒。 终于圆满了,这通折腾总算有了个让人欣慰的结局。 |
|
[5 楼] 色色熊
[泡菜]
4-20 17:14
闲聊状态 发表于 2026-04-20 14:20 上午贴了首帖后就下了个LM Studio,与英特尔优化版ollama对同样的qwen3 30b-a3b q4进行了速度对比,LM Studio要慢2tps,从ollama的18+tps降到了16+。 不过呢,LM Studio可以加载qwen3.6了啊,下载了qweb3.6 35b-a3b,跑起来试了试,13tps。 可以啦,就用LM Studio了。 |
|
[4 楼] 闲聊状态
[泡菜]
4-20 14:20
intel 显卡部署 llm
你现在俩选项 1.lmstudio 使用vulkan 2.llama.cpp 用sycl ,这个只有win的是默认编译了的,linux的需要你自己编译,这个如果不会配置 可以用AI给你生成命令 sycl的性能是vulkan的一倍 我的机器是intel独显 win10 ltsc,vuklan会蓝屏 重启 如果使用pytorch这种 使用pytorch-xpu的版本就是intel显卡优化的,这个win下没遇到过重启 linux下intel的驱动要用intel自己官网的,装全了才行(官方只支持ubuntu 22.04以后的版本),发行版里带的那个只是“简版” 闲聊状态 编辑于 2026-04-20 14:23 |
|
[3 楼] Trompette
[泡菜]
4-20 12:43
32b 是稠密模型,全时激活 320 亿参数,很吃算力
30b-a3b 是混合专家(稀疏模型),每次只激活8个专家共30亿参数,计算量小得多,适合NPU的配置跑 64G内存堪称英明决策了 |
|
[2 楼] huhuzz
[泡菜]
4-20 11:56
别折腾了,Intel魔改的ollama都废弃停更好几个月了,而且那弱鸡集显在我的机器上多跑一会儿就花屏了。Intel跟不上彻底躺平了……
还是换个mac集显吧,不光是性能成倍提升,文生图模型也可以玩玩了 ![]() 发布自 iOS客户端 |
