在Intel核显笔记本上部署本地AI模型的折腾记

1148 4

[1 楼] 色色熊 [泡菜] 4-20 11:16 前一阵龙虾热闹，关注了一下，发现说龙虾很费钱（买token），于是想到AI模型的本地部署，产生了些兴趣，想在我用的笔记本上装一个玩玩。并不打算玩儿龙虾，我没那种应用需求，单纯就是想玩玩模型。笔记本配置是： ultra5 125H CPU，核显 ‌Intel Arc™，有 ‌7 个 Xe 核心‌ 与 ‌112 个执行单元 (EU)‌，最高动态频率‌2.2GHz‌，性能表现约等于 ‌GTX 1650‌ 独立显卡。买的时候考虑了PS吞吃内存，配置了64GB DDR5。升级显卡驱动，英特尔可在内存中分配36GB作为共享显存。我对AI模型24K纯小白，原先一直都不知道token是什么，所以装模型玩儿都是在云端大模型的app指导下进行，用到了豆包、千问和元宝，这三个app中，豆包比较热情，能提供很详细的手把手教程；元宝比较严谨和保守，适合控制期望的边界；我要装的是qwen的开源模型，问千问觉得比较正宗。一开始按常规，装了ollama作为模型管理和运行工具（我都不知道所谓模型就是一堆数据，需要一个运行环境来跑）。拉了qwen3.5 35b下来一跑，卡的找不到北。按这几个AI app的建议，又拉了个小体量的qwen3.5 9b，能运行了，2、3topen/秒。这速度还玩儿个鬼啊。不甘心，找信息，才知道有个英特尔优化版的ollama。原生的ollama只对英伟达的N卡有支持，我装了就一直在用cpu跑，必须慢。把英特尔优化版ollama下载装上，遇到新问题：这个英特尔优化基于的是0.9.3版的原生ollama，根本不支持qwen3.5这种新架构模型。降级，跑qwen2.5吧，拉来了7b、14b和32b三个模型。优化过的ollama能用核显了，这三个不同大小的模型速度分别是8、5、3.5 token/秒。继续不甘心。问元宝说有没有国内可替代ollama的工具，元宝说有个叫玄武的，专门支持国产那些显卡，也能支持intel核显。挺高兴的去玄武官网看了看，运行环境linux。干脆一咬牙，上linux吧。翻出一个128GB的移动SSD，开始在豆包指导下装ubuntu。对linux与对AI模型一样，也是两眼一抹黑，所以按豆包说法亦步亦趋，中间必然问题重重，补丁摞补丁的装好了。一跑，ollama还是不认核显。又折腾了两天，各种方法，各种工具，LM studio、玄武ctl都试了，还是不行啊不行。最后豆包说，可能是Intel在linux上的显卡驱动不行，按其说法是，linux不像windows被Intel重视，所以显卡驱动在支持模型运行方面的稳定性不足。我反正不懂，豆包说啥就是啥吧。回归windows。（以前从没关注过linux，这次试了一下，还真别说，虽然跑模型没成功，但其他的比如WPS office、微信、QQ等等常规应用，都跑的很稳定，已经可以在日常使用中替掉windows了，火狐浏览器也不错，上无忌没任何问题）能想到的都试了，认命吧。然后就又发现英特尔优化版的ollama能支持qwen3，那就至少把qwen2.5升级到qwen3吧，聊以自慰，至少后出的版本训练数据新一些。下载qwen3 8b\14b\32b，速度比2.5还都降了一些，为了训练数据新一点儿也认了，反正都慢。本来也就玩儿到这儿为止了，峰回路转，看到一个说法说，虽然英特尔优化版基于0.9.3的ollama支持不了MoE专家模式的模型，但英特尔优化的最新版本总体上却是可以跑MoE的模型。再试。下载qwen3 30b-a3b，这是个MoE模式的模型，30b的体量3b的高速，一试，跑通了。速度吓我一跳，18+token/秒。终于圆满了，这通折腾总算有了个让人欣慰的结局。
[5 楼] 色色熊 [泡菜] 4-20 17:14 闲聊状态发表于 2026-04-20 14:20 intel 显卡部署 llm 你现在俩选项 1.lmstudio 使用vulkan 2.llama.cpp 用sycl ，这个只有win的是默认编译了的，linux的需要你自己编译，这个如果不会配置可以用AI给你生成命令 sycl的性能是vulka... 忘了说了，llama.cpp也折腾过，相当的，不成功，因为我完全不懂，所以为啥不成功也不知道。上午贴了首帖后就下了个LM Studio，与英特尔优化版ollama对同样的qwen3 30b-a3b q4进行了速度对比，LM Studio要慢2tps，从ollama的18+tps降到了16+。不过呢，LM Studio可以加载qwen3.6了啊，下载了qweb3.6 35b-a3b，跑起来试了试，13tps。可以啦，就用LM Studio了。
[4 楼] 闲聊状态 [泡菜] 4-20 14:20 intel 显卡部署 llm 你现在俩选项 1.lmstudio 使用vulkan 2.llama.cpp 用sycl ，这个只有win的是默认编译了的，linux的需要你自己编译，这个如果不会配置可以用AI给你生成命令 sycl的性能是vulkan的一倍我的机器是intel独显 win10 ltsc，vuklan会蓝屏重启如果使用pytorch这种使用pytorch-xpu的版本就是intel显卡优化的，这个win下没遇到过重启 linux下intel的驱动要用intel自己官网的，装全了才行（官方只支持ubuntu 22.04以后的版本），发行版里带的那个只是“简版” 闲聊状态编辑于 2026-04-20 14:23
[3 楼] Trompette [泡菜] 4-20 12:43 32b 是稠密模型，全时激活 320 亿参数，很吃算力 30b-a3b 是混合专家（稀疏模型），每次只激活8个专家共30亿参数，计算量小得多，适合NPU的配置跑 64G内存堪称英明决策了
[2 楼] huhuzz [泡菜] 4-20 11:56 别折腾了，Intel魔改的ollama都废弃停更好几个月了，而且那弱鸡集显在我的机器上多跑一会儿就花屏了。Intel跟不上彻底躺平了…… 还是换个mac集显吧，不光是性能成倍提升，文生图模型也可以玩玩了发布自 iOS客户端