OpenAI 硬件负责人的闭门分享，向我们揭示了为什么硬件「终点」仍是智能手机

极客公园2026-04-28热度: 6077

OpenAI 正推进全栈自研硬件战略，从芯片、系统架构到终端设备（如智能手机），核心目标是为AI agent时代重构计算范式。其硬件路径并非简单造手机或芯片，而是围绕未来模型演进需求，自主设计端到端AI计算系统，以突破GPU瓶颈，实现低延迟、高能效、跨云边协同的agent原生体验。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

agent

昨天，当 OpenAI 做智能手机的具体规格与供应链爆料发布时，我第一反应不是「他们要做手机了」，而是「OpenAI 最终也不得不踏出这一步」，同时想起两周前 Richard Ho 在 Stanford 那场交流。

Richard Ho 是 OpenAI 的硬件负责人，从 Google 做 TPU 出来。

agent

Richard Ho ｜图片来源：Synopsys

那场在 IEEE 内部组织的交流上，他没有讲过一次「手机」这个词。但把昨天的新闻和他当时说过的话放在一起看，整条路径其实已经被讲得很清楚——只是当时没有一个具体的产品形态来锚定它。

OpenAI 做手机这件事，在外界看来像一次跨界。但顺着 Richard Ho 那场交流的逻辑往下推，你会发现这是一条早就铺好的路。

毕竟对于所有模型厂商来讲，手机都只是终点之一，不是起点。

01 模型的下一次「跃迁」，诞生自硬件

那场交流的核心，是关于 OpenAI 为什么必须自己做硬件。

Richard Ho 反复强调的一句话是：「真正的限制不再只是模型，而是算力、能耗、成本、延迟，是整个系统。」

听起来像一句普通的技术陈述。但放在 OpenAI 的位置上，这句话的分量完全不一样——它意味着这家公司已经不把自己单纯当作一家模型公司。

GPU 是为通用并行计算设计，在推荐系统、传统的并行任务，跑得很好。

但面对今天主流的 Transformer、agent、长上下文推理，其实已经偏离了 GPU 当初的设计假设。尤其是 agent——多轮、持续执行、跨任务协同，整个系统层的低效会被放大很多倍。Richard Ho 当时的原话是：「GPU 把我们带到了今天，但它并不是为这种（AI 负载任务）而设计的。」

这句话背后的含义其实是：继续依赖 NVIDIA 所设定好的硬件路径，OpenAI 永远没办法把模型推到下一个量级。不是说 GPU 不能用，而是说在能耗、成本、效率这些维度上，OpenAI 无法一直被动地接受外部的硬件节奏。

所以这件事的本质从一开始就不是「OpenAI 进入芯片/硬件行业」，而是 OpenAI 想重新拿回 AI 运行的底层控制权。

如果只看媒体报道，你会以为 OpenAI 在做的事情是「组装一台手机」或者更深入一些的「自研一颗 AI 芯片」。但 Richard Ho 自己澄清得很直接：「我们不是在做一颗芯片，而是在做一个系统。」

这个「系统」包括芯片、机架、网络、电力、散热、数据中心——和 Google 当年做 TPU 的路径很像，但更强调端到端的控制。

进度的部分有点出乎我意料。Richard Ho 说团队是从零搭起来的，但「两年时间已经从空白走到 tape-out（芯片设计完成交付流片生产）」，并且已经有芯片在真实 workload 中跑了——他特意强调这不是纸面上的数据，而是「已经在真实环境里 work 的东西」。

两年从零到 tape-out 是个什么概念？传统芯片公司从架构到流片，五到七年很正常。Google TPU 第一代用了大约三年，而且是有 Jeff Dean 这种基础设施大牛背书、又有 Google 内部完整的工程协同体系作支撑。OpenAI 能做到两年——背后只能是两件事：要么是从 TPU、Apple、Google 等公司挖了大批已经成熟的硬件团队（这是事实），要么是 Broadcom 这类合作方在底层 IP 上提供了相当大的支持（这也部分是事实）。

但更值得说的是 OpenAI 和硬件供应商之间的关系边界。

「他们会参与 IP、physical design、packaging。」Richard Ho 谈到 Broadcom 时说得很克制，紧接着补了一句——「他们并不看到完整的架构。」他还专门解释，「很多时候他们只看到一部分，但看不到整体是怎么拼起来的。」

这句话其实透露了 OpenAI 自身的一个判断：架构层和工程层是两件事，前者必须完全握在自己手里。Broadcom 提供的是模块和制造能力，系统级的设计逻辑——也就是「这颗芯片到底要怎么和模型配合」这件事——必须留在内部——就像苹果做硬件的逻辑一样。

Richard Ho 提到，外界看到的模型是几个月发布一次，但内部其实是一条连续的 pipeline——「我们能看到接下来 6 到 9 个月模型会怎么变」。

这句话才是整段最关键的。它意味着 OpenAI 的硬件团队不是在为今天的模型设计芯片，而是在为还没出现的模型「预备」设计。

具体到细节上，这种「向前看」会影响很多决定：模型对内存压力的变化会直接决定 HBM 应该用 8-high、12-high 还是 16-high；网络带宽要扩到多少；新的 compression algorithm 出现会不会改变数据流的形状；inference 和 training 的比例正在快速变化（推理负载越来越重），这对硬件的要求又是另一套。

Richard Ho 把这一点总结成一句话：

「你必须为模型将要去的方向设计硬件，而不是为今天的模型。」

这就是 OpenAI 的芯片和 NVIDIA、AMD 的根本不同之处——它不是一颗对外销售的通用 GPU，而是高度贴合 OpenAI 自身模型路径的、几乎一对一定制的系统。从这个角度看，OpenAI 做芯片更像 Google 做 TPU，而不是像 NVIDIA 做 H100。

但即便如此，硬件优化的天花板远没有到。Richard Ho 反对「晶体管进步变慢，所以芯片红利结束」这个论断。他的判断是：单颗芯片确实在变慢，但整个系统层面还远远没有被优化好。memory hierarchy、networking、data movement——这些大瓶颈都没解。他举的例子很具体：现在高速 copper 互联在高带宽下只能支持大约 2 米的距离，这对数据中心布局是非常大的限制。

简单说一句：OpenAI 在做的事情不是把一颗芯片做得更快，而是把整个 AI 计算系统重新优化一遍。

手机这件事，是这个系统的最末端。

02「手机不是为 agent 设计的」

回到手机。

Richard Ho 在那场交流上有一句话，今天回头看几乎就是 OpenAI 做手机的全部理由——「手机不是为 agent 设计的」。

「今天的手机交互是 app-based、session-based 的，你打开一个 app，做一件事，关掉。但 agent 需要的是持续存在、持续执行、跨任务协同。一个真正的 agent 不会等你打开它再开始工作，它会在后台一直理解你的状态、调度你的任务、跟其他 agent 通信。」

这种交互范式，直接等同于在说：今天的 iOS 和 Android 都不是为它设计的。

这就是为什么 OpenAI 必须自己做。Richard Ho 的判断是「未来不是 cloud-only，也不是 edge-only，而是两者结合」——个人上下文、隐私数据、低延迟交互必须在设备端，复杂推理留在云端。如果一个 agent 想随时拿到用户的「当下状态」，它必须在操作系统层有完整权限。

agent

现有手机系统在满足 AI 时代原生用户需求面前有天然的短板｜图片来源：io

这件事在 iOS 和 Android 上很难干净地做——不是技术问题，是利益问题。Apple 不会把系统级权限完全开放给一个第三方 agent，Google 也不会。

也是从这个角度，去年 OpenAI 收购 Jony Ive 团队相关的公司（io）的逻辑就清楚了。Richard Ho 说，做端侧个人设备这部分工作「是目前最有意思的一块」——因为这是第一次把基础设施和消费电子设备真正接在一起。

这其实是 OpenAI 整个硬件战略里最有想象力的部分，也是最危险的部分。有想象力是因为它在做 Apple 当年没做的事：用 AI agent 把操作系统重写一遍。危险是因为消费电子是另一套游戏规则——产品节奏、供应链、零售、品牌——不是从云端工程师团队里能长出来的能力。

但 io 的存在解决了一部分问题。Jony Ive 不是来做芯片或者操作系统的，他是来做硬件形态和工业设计的——这本来就是 Apple 这些年从 OpenAI 手里能短暂保住的最后一块地。

03 不是所有 AI 公司都在做同一件事

消费电子的难度有多大，看过去两年其他 AI 公司在硬件上的尝试就清楚了。

每一家都想用 AI 重新定义某个硬件形态。但每一家走的路径不一样，结果也很不一样。

最早的是 Rabbit R1。

2024 年初的 CES 上，吕骋拿出那台橙色小盒子，喊出「干翻所有 App」——用 LAM（大动作模型）替代手机里 App 的交互方式，一句话订外卖、打车、订机票。当时引发的关注度堪比「AI 时代的 iPhone 时刻」，开售两周卖出 5 万台。

agent

Rabbit R1 是首批 AI 硬件中为数不多「口碑反转」的产品｜图片来源：Rabbit

但首批用户体验出来之后，事情翻得很快。先是被开发者证实是套壳安卓——Rabbit OS 实际上是 AOSP 的修改版，APK 可以直接装到 Pixel 6a 上跑。LAM 被发现依赖 OpenAI 的 API。续航 4 小时，订一次外卖要试十几次。

Rabbit 失败的真正原因不是产品质量，而是路径——它只做了硬件壳子，没碰底层。芯片是联发科 Helio P35（入门手机水平），系统是套壳 Android，模型靠第三方 API。这种做法的天花板很明显：你做的事情，一个手机 App 都能做，而且做得更好。

Meta 选了一条完全不同的路。

Meta 的判断是不挑战手机这个形态，让 AI 借眼镜这个已经存在的硬件形态进入日常。Ray-Ban Meta 做对了三件事：找 EssilorLuxottica（雷朋母公司）做合作方，让眼镜回归眼镜本身——时尚、轻、舒适；把 AI 做成「附加项」，299 美元起售；不强求每个用户都用 AI，先把一副好眼镜卖出去，AI 是 bonus。

结果是 Ray-Ban Meta 卖出超过 200 万副，Meta 一家拿下全球智能眼镜市场 75% 以上的份额。

但这条路的边界也清楚——Meta 解决的是「AI 怎么进入日常」这个问题，不是「AI 怎么重新定义计算」这个问题。眼镜只是一个加了摄像头和麦克风的入口，它不会替代手机，也没打算替代。

阿里千问基本上是 Meta 路径的中国版本。今年 2 月 MWC 发布、3 月 G1 系列发售（国补到手价 1997 元起）、4 月 S1 上市（国补到手价 3499 元），节奏很快。逻辑也清晰：千问 App 已经做到超 3 亿月活、8000 万 DAU，眼镜是把 AI 助手能力从手机延伸到日常佩戴形态——支付宝、高德、淘宝、飞猪一整套阿里生态都接进来，用户对眼镜说「点外卖」「打车」「翻译」就能办事。芯片是高通骁龙 AR1，系统在 Android 之上，模型用千问。

千问眼镜本质上是一次生态延伸，不是底层重构。它的优势是阿里生态足够厚，眼镜成为阿里 AI 服务的一个新入口。

把这三条路放在一起看，再对比 OpenAI——你会发现 OpenAI 是唯一一家在做「全栈重新定义」的公司：

Rabbit 想绕过 App 但没动操作系统，结果是空中楼阁；Meta 选择不挑战手机，让眼镜做配角，做对了爆款但天花板就是配角；千问跟随 Meta 的形态选择，把眼镜做成 AI 服务的延伸入口；而 OpenAI——从芯片、基础设施、能源、操作系统、设备一路打通。

这是另一个量级的事。