4000 亿参数“生啃”成功！iPhone 17 Pro 挑战本地运行超大模型，但速度只有 0.6 token

个人专栏

2026-03-24热度: 4762

iPhone17Pro在仅12GB内存下成功本地运行4000亿参数大模型，依赖Flash-MoE流式加载与MoE稀疏激活技术，但生成速度仅0.6Token/秒、功耗高、发热大；此举验证了终端设备本地大模型的可行性，凸显隐私保护与离线AI潜力。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

智能手机的算力极限在哪里? 苹果的最新旗舰 iPhone17Pro 刚刚给出了一个既令人震撼又略显尴尬的答案。

3月23日，拥有 4000亿参数 的大语言模型在 iPhone17Pro 上成功跑通。要知道，即便经过量化压缩，此类模型通常也需要至少200GB 的内存才能运行，而 iPhone17Pro 的硬件配置仅为12GB LPDDR5X 内存。

技术“黑科技”: 闪存流转与混合专家模型

在内存容量严重不足的情况下，这次“不可能的任务”主要依靠两个技术路径实现:

SSD 强行“扩容”: 借助 Flash-MoE 开源项目，设备直接从固态硬盘（SSD）向 GPU 流式传输数据，突破了物理内存的上限。

MoE 架构优势: “MoE”代表混合专家模型（Mixture of Experts），这意味着系统在生成每个单词时，只需要调用4000亿参数中的一小部分，而非全量负载。

速度硬伤:每两秒蹦出一个词

虽然“跑通了”，但实际体验距离“可用”还有巨大的鸿沟。实测显示:

生成速度: 仅为 0.6Token/秒。换句话说，大约每1.5到2秒才能生成一个单词。

功耗压力: 这种高强度的本地运算会极速消耗手机的电池寿命，发热情况也不容小觑。

行业启示:本地大模型的“奇点”将至?

尽管目前的生成速度让人“抓狂”，但这次演示的象征意义远大于实用价值。它证明了在手机端本地运行顶级规模大模型并非死路一条。

隐私护城河: 本地运行意味着数据无需上传云端，能够提供极高的隐私保护。

离线可行性: 在无网络环境下获取顶级 AI 的回复正在成为可能。

正如业内评价，“能跑起来”和“能流畅使用”是两码事。但随着算法优化与硬件迭代，当0.6token 进化到60token 时，智能手机将真正进化为随身携带的“超级大脑”。

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:iPhone17Pro MoE Flash-MoE

24H热门新闻

暂无内容

7x24H 快讯

4分钟前

CFTC警告预测市场公司提交事件合约需提供更具体信息

10分钟前

江卓尔：长鑫存储大概率首日即历史最高价，建议结合Hyperliquid对冲操作

22分钟前

外媒：美国政府已隐性建立约270亿美元企业股权投资组合

45分钟前

分析，比特币在 6 万至 6.15 万美元形成大规模流动性聚集区

46分钟前

CZ评多家CEX陷入关停传闻：太残酷了，希望是底部信号

1小时前

加密 KOL：币安 Alpha 及带单交易员迁移或为 BitMart、BitMex 等 CEX 倒闭主因

1小时前

数据：过去 24 小时全网爆仓 9,568.82 万美元，多单爆仓 5,003.33 万美元，空单爆仓 4,565.5 万美元

1小时前

Aave 创始人：CLARITY 法案进入“最后一公里”，若通过将为 DeFi 带来利好

4000 亿参数“生啃”成功！iPhone 17 Pro 挑战本地运行超大模型，但速度只有 0.6 token

推广

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

账号密码登录

修改昵称

4000 亿参数“生啃”成功！iPhone 17 Pro 挑战本地运行超大模型，但速度只有 0.6 token

推广

相关新闻

关注

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

商务合作