Mac 用户的福利！Ollama 集成苹果 MLX 框架：推理速度翻倍，M5 芯片直接起飞

个人专栏

2026-04-01热度: 4647

Ollama发布0.19预览版，集成苹果MLX机器学习框架，显著提升Mac本地大模型推理性能：预填阶段提速1.6倍、生成阶段速度翻倍，M5芯片机型受益最明显；优化统一内存调度，支持长上下文流畅交互；首发适配阿里Qwen 3.5模型，推动本地AI向毫秒级响应演进。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

如果你是在 Mac 上进行本地大模型开发的极客，那么 Ollama 刚刚发布的这份“性能大礼包”绝对不容错过。

3 月 31 日，本地大模型运行方案 Ollama 正式发布更新，宣布引入苹果自研的机器学习框架 MLX。这一底层架构的变动，为搭载 Apple 芯片的 Mac 设备带来了立竿见影的性能跨越，让本地 AI 的响应速度迈上了一个新台阶。

核心提升：响应速度最高翻倍，M5 表现惊艳

根据官方披露的数据，集成 MLX 框架后的 Ollama 在性能上实现了“两步走”的飞跃：

预填阶段（Prefill）提速 1.6 倍： 在处理用户输入的提示词阶段，系统反应更加敏捷。
生成阶段（Decode）速度翻倍： 在模型产出回复的过程中，字句弹出的速度几乎提升了 100%。
新机型特供： 对于配备 M5 系列芯片的最新机型，由于苹果在硬件中加入了全新的 GPU Neural Accelerator（神经加速器），其受惠程度最为显著，推理体验已接近“即时响应”。

内存管理优化：长对话不再“卡壳”

除了纯粹的速度提升，本次更新还深度优化了内存管理策略：

高效调度： 新版本能更灵活地利用 Mac 的系统统一内存（Unified Memory），即便在长时间、大上下文的会话中，也能保持流畅的交互。
专业建议： 官方建议用户在配备 32GB 或更高内存 的 Mac 上运行，以换取最理想的推理表现。

首发阵营：阿里 Qwen 3.5 率先支持

在预览阶段，这一基于 MLX 加速的版本（Ollama 0.19 预览版）主要针对 阿里旗下的 Qwen 3.5 模型进行了专项支持。不过 Ollama 已经明确表示，后续将逐步适配更多主流 AI 模型。

行业观察：本地 AI 助手的“毫秒级”时代

对于依赖 Ollama 驱动本地 AI 编码工具（如 OpenClaw）或代码助手（如 Claude Code、Codex）的开发者来说，这次更新意味着工作流的极大闭环。当延迟缩减到亚秒级，本地运行的大模型将不再是“实验室玩物”，而是真正能与云端服务抗衡的即时生产力工具。

结语：苹果生态的算力闭环

从自研芯片到自研框架，苹果正在一步步收拢 AI 开发的话语权。而 Ollama 对 MLX 的拥抱，不仅让 Mac 坐稳了“本地 AI 开发首选机型”的宝座，也让开发者看到了软硬一体化带来的极致红利。

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:Qwen 3.5 Ollama MLX

最近更新

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容

1分钟前

“先定 10 个大目标”真实仓位或达 2.08 亿美元，共做多 3076.88 枚 BTC

2分钟前

CPO概念大幅高开，天孚通信涨近10%

4分钟前

美国两位参议员推动劳工部撤销将加密货币纳入 401(k) 计划的拟议规则

7分钟前

数据：早期实体比特币 Casascius Coin 被拆封，25 枚 BTC 资产完成转移

13分钟前

美财政部制裁伊朗四家加密交易平台及多名高管，指控其协助规避制裁

16分钟前

AI 初创公司 Special 完成融资，a16z 领投

18分钟前

AI热刺激芯片设备陶瓷需求，日本卫浴制造商东陶加码进军半导体材料业

18分钟前

“星尘智能”完成超10亿B轮融资