
Ollama发布0.19预览版,集成苹果MLX机器学习框架,显著提升Mac本地大模型推理性能:预填阶段提速1.6倍、生成阶段速度翻倍,M5芯片机型受益最明显;优化统一内存调度,支持长上下文流畅交互;首发适配阿里Qwen 3.5模型,推动本地AI向毫秒级响应演进。
如果你是在 Mac 上进行本地大模型开发的极客,那么 Ollama 刚刚发布的这份“性能大礼包”绝对不容错过。
3 月 31 日,本地大模型运行方案 Ollama 正式发布更新,宣布引入苹果自研的机器学习框架 MLX。这一底层架构的变动,为搭载 Apple 芯片的 Mac 设备带来了立竿见影的性能跨越,让本地 AI 的响应速度迈上了一个新台阶。
核心提升:响应速度最高翻倍,M5 表现惊艳
根据官方披露的数据,集成 MLX 框架后的 Ollama 在性能上实现了“两步走”的飞跃:
预填阶段(Prefill)提速 1.6 倍: 在处理用户输入的提示词阶段,系统反应更加敏捷。
生成阶段(Decode)速度翻倍: 在模型产出回复的过程中,字句弹出的速度几乎提升了 100%。
新机型特供: 对于配备 M5 系列芯片的最新机型,由于苹果在硬件中加入了全新的 GPU Neural Accelerator(神经加速器),其受惠程度最为显著,推理体验已接近“即时响应”。
内存管理优化:长对话不再“卡壳”
除了纯粹的速度提升,本次更新还深度优化了内存管理策略:
高效调度: 新版本能更灵活地利用 Mac 的系统统一内存(Unified Memory),即便在长时间、大上下文的会话中,也能保持流畅的交互。
专业建议: 官方建议用户在配备 32GB 或更高内存 的 Mac 上运行,以换取最理想的推理表现。
首发阵营:阿里 Qwen 3.5 率先支持
在预览阶段,这一基于 MLX 加速的版本(Ollama 0.19 预览版)主要针对 阿里旗下的 Qwen 3.5 模型进行了专项支持。不过 Ollama 已经明确表示,后续将逐步适配更多主流 AI 模型。
行业观察:本地 AI 助手的“毫秒级”时代
对于依赖 Ollama 驱动本地 AI 编码工具(如 OpenClaw)或代码助手(如 Claude Code、Codex)的开发者来说,这次更新意味着工作流的极大闭环。当延迟缩减到亚秒级,本地运行的大模型将不再是“实验室玩物”,而是真正能与云端服务抗衡的即时生产力工具。
结语:苹果生态的算力闭环
从自研芯片到自研框架,苹果正在一步步收拢 AI 开发的话语权。而 Ollama 对 MLX 的拥抱,不仅让 Mac 坐稳了“本地 AI 开发首选机型”的宝座,也让开发者看到了软硬一体化带来的极致红利。