4000 亿参数“生啃”成功!iPhone 17 Pro 挑战本地运行超大模型,但速度只有 0.6 token

AIBase
个人专栏
热度: 3898

iPhone17Pro在仅12GB内存下成功本地运行4000亿参数大模型,依赖Flash-MoE流式加载与MoE稀疏激活技术,但生成速度仅0.6Token/秒、功耗高、发热大;此举验证了终端设备本地大模型的可行性,凸显隐私保护与离线AI潜力。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

智能手机的算力极限在哪里? 苹果 的最新旗舰 iPhone17Pro 刚刚给出了一个既令人震撼又略显尴尬的答案。

3月23日,拥有 4000亿参数 的大语言模型在 iPhone17Pro 上成功跑通。要知道,即便经过量化压缩,此类模型通常也需要至少200GB 的内存才能运行,而 iPhone17Pro 的硬件配置仅为12GB LPDDR5X 内存。

技术“黑科技”: 闪存流转与混合专家模型

在内存容量严重不足的情况下,这次“不可能的任务”主要依靠两个技术路径实现:

SSD 强行“扩容”: 借助 Flash-MoE 开源项目,设备直接从固态硬盘(SSD)向 GPU 流式传输数据,突破了物理内存的上限。

MoE 架构优势: “MoE”代表混合专家模型(Mixture of Experts),这意味着系统在生成每个单词时,只需要调用4000亿参数中的一小部分,而非全量负载。

速度硬伤:每两秒蹦出一个词

虽然“跑通了”,但实际体验距离“可用”还有巨大的鸿沟。实测显示:

生成速度: 仅为 0.6Token/秒。换句话说,大约每1.5到2秒才能生成一个单词。

功耗压力: 这种高强度的本地运算会极速消耗手机的电池寿命,发热情况也不容小觑。

行业启示:本地大模型的“奇点”将至?

尽管目前的生成速度让人“抓狂”,但这次演示的象征意义远大于实用价值。它证明了在手机端本地运行顶级规模大模型并非死路一条。

隐私护城河: 本地运行意味着数据无需上传云端,能够提供极高的隐私保护。

离线可行性: 在无网络环境下获取顶级 AI 的回复正在成为可能。

正如业内评价,“能跑起来”和“能流畅使用”是两码事。但随着算法优化与硬件迭代,当0.6token 进化到60token 时,智能手机将真正进化为随身携带的“超级大脑”。

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。