在Intel核显笔记本上部署本地AI模型的折腾记
1148 4
[1 楼] 色色熊 [泡菜]
4-20 11:16
前一阵龙虾热闹,关注了一下,发现说龙虾很费钱(买token),于是想到AI模型的本地部署,产生了些兴趣,想在我用的笔记本上装一个玩玩。
并不打算玩儿龙虾,我没那种应用需求,单纯就是想玩玩模型。
笔记本配置是:
ultra5 125H CPU,核显 ‌Intel Arc™,有 ‌7 个 Xe 核心‌ 与 ‌112 个执行单元 (EU)‌,最高动态频率‌2.2GHz‌,性能表现约等于 ‌GTX 1650‌ 独立显卡。
买的时候考虑了PS吞吃内存,配置了64GB DDR5。
升级显卡驱动,英特尔可在内存中分配36GB作为共享显存。

我对AI模型24K纯小白,原先一直都不知道token是什么,所以装模型玩儿都是在云端大模型的app指导下进行,用到了豆包、千问和元宝,这三个app中,豆包比较热情,能提供很详细的手把手教程;元宝比较严谨和保守,适合控制期望的边界;我要装的是qwen的开源模型,问千问觉得比较正宗。

一开始按常规,装了ollama作为模型管理和运行工具(我都不知道所谓模型就是一堆数据,需要一个运行环境来跑)。
拉了qwen3.5 35b下来一跑,卡的找不到北。按这几个AI app的建议,又拉了个小体量的qwen3.5 9b,能运行了,2、3topen/秒。
这速度还玩儿个鬼啊。

不甘心,找信息,才知道有个英特尔优化版的ollama。原生的ollama只对英伟达的N卡有支持,我装了就一直在用cpu跑,必须慢。
把英特尔优化版ollama下载装上,遇到新问题:这个英特尔优化基于的是0.9.3版的原生ollama,根本不支持qwen3.5这种新架构模型。
降级,跑qwen2.5吧,拉来了7b、14b和32b三个模型。优化过的ollama能用核显了,这三个不同大小的模型速度分别是8、5、3.5 token/秒。

继续不甘心。
问元宝说有没有国内可替代ollama的工具,元宝说有个叫玄武的,专门支持国产那些显卡,也能支持intel核显。挺高兴的去玄武官网看了看,运行环境linux。
干脆一咬牙,上linux吧。
翻出一个128GB的移动SSD,开始在豆包指导下装ubuntu。对linux与对AI模型一样,也是两眼一抹黑,所以按豆包说法亦步亦趋,中间必然问题重重,补丁摞补丁的装好了。一跑,ollama还是不认核显。
又折腾了两天,各种方法,各种工具,LM studio、玄武ctl都试了,还是不行啊不行。
最后豆包说,可能是Intel在linux上的显卡驱动不行,按其说法是,linux不像windows被Intel重视,所以显卡驱动在支持模型运行方面的稳定性不足。我反正不懂,豆包说啥就是啥吧。
回归windows。
(以前从没关注过linux,这次试了一下,还真别说,虽然跑模型没成功,但其他的比如WPS office、微信、QQ等等常规应用,都跑的很稳定,已经可以在日常使用中替掉windows了,火狐浏览器也不错,上无忌没任何问题)

能想到的都试了,认命吧。
然后就又发现英特尔优化版的ollama能支持qwen3,那就至少把qwen2.5升级到qwen3吧,聊以自慰,至少后出的版本训练数据新一些。
下载qwen3 8b\14b\32b,速度比2.5还都降了一些,为了训练数据新一点儿也认了,反正都慢。

本来也就玩儿到这儿为止了,峰回路转,看到一个说法说,虽然英特尔优化版基于0.9.3的ollama支持不了MoE专家模式的模型,但英特尔优化的最新版本总体上却是可以跑MoE的模型。
再试。
下载qwen3 30b-a3b,这是个MoE模式的模型,30b的体量3b的高速,一试,跑通了。
速度吓我一跳,18+token/秒。

终于圆满了,这通折腾总算有了个让人欣慰的结局。
[5 楼] 色色熊 [泡菜]
4-20 17:14
闲聊状态 发表于 2026-04-20 14:20
intel 显卡部署 llm
你现在俩选项
1.lmstudio 使用vulkan
2.llama.cpp 用sycl ,这个只有win的是默认编译了的,linux的需要你自己编译,这个如果不会配置 可以用AI给你生成命令
sycl的性能是vulka...
忘了说了,llama.cpp也折腾过,相当的,不成功,因为我完全不懂,所以为啥不成功也不知道。
上午贴了首帖后就下了个LM Studio,与英特尔优化版ollama对同样的qwen3 30b-a3b q4进行了速度对比,LM Studio要慢2tps,从ollama的18+tps降到了16+。
不过呢,LM Studio可以加载qwen3.6了啊,下载了qweb3.6 35b-a3b,跑起来试了试,13tps。
可以啦,就用LM Studio了。
[4 楼] 闲聊状态 [泡菜]
4-20 14:20
intel 显卡部署 llm

你现在俩选项
1.lmstudio 使用vulkan
2.llama.cpp 用sycl ,这个只有win的是默认编译了的,linux的需要你自己编译,这个如果不会配置 可以用AI给你生成命令

sycl的性能是vulkan的一倍

我的机器是intel独显 win10 ltsc,vuklan会蓝屏 重启

如果使用pytorch这种 使用pytorch-xpu的版本就是intel显卡优化的,这个win下没遇到过重启

linux下intel的驱动要用intel自己官网的,装全了才行(官方只支持ubuntu 22.04以后的版本),发行版里带的那个只是“简版”
闲聊状态 编辑于 2026-04-20 14:23
[3 楼] Trompette [泡菜]
4-20 12:43
32b 是稠密模型,全时激活 320 亿参数,很吃算力
30b-a3b 是混合专家(稀疏模型),每次只激活8个专家共30亿参数,计算量小得多,适合NPU的配置跑

64G内存堪称英明决策了
[2 楼] huhuzz [泡菜]
4-20 11:56
别折腾了,Intel魔改的ollama都废弃停更好几个月了,而且那弱鸡集显在我的机器上多跑一会儿就花屏了。Intel跟不上彻底躺平了……
还是换个mac集显吧,不光是性能成倍提升,文生图模型也可以玩玩了
发布自 iOS客户端