
OpenAI 正推进全栈自研硬件战略,从芯片、系统架构到终端设备(如智能手机),核心目标是为AI agent时代重构计算范式。其硬件路径并非简单造手机或芯片,而是围绕未来模型演进需求,自主设计端到端AI计算系统,以突破GPU瓶颈,实现低延迟、高能效、跨云边协同的agent原生体验。

昨天,当 OpenAI 做智能手机的具体规格与供应链爆料发布时,我第一反应不是「他们要做手机了」,而是「OpenAI 最终也不得不踏出这一步」,同时想起两周前 Richard Ho 在 Stanford 那场交流。
Richard Ho 是 OpenAI 的硬件负责人,从 Google 做 TPU 出来。

Richard Ho |图片来源:Synopsys
那场在 IEEE 内部组织的交流上,他没有讲过一次「手机」这个词。但把昨天的新闻和他当时说过的话放在一起看,整条路径其实已经被讲得很清楚——只是当时没有一个具体的产品形态来锚定它。
OpenAI 做手机这件事,在外界看来像一次跨界。但顺着 Richard Ho 那场交流的逻辑往下推,你会发现这是一条早就铺好的路。
毕竟对于所有模型厂商来讲,手机都只是终点之一,不是起点。
那场交流的核心,是关于 OpenAI 为什么必须自己做硬件。
Richard Ho 反复强调的一句话是:「真正的限制不再只是模型,而是算力、能耗、成本、延迟,是整个系统。」
听起来像一句普通的技术陈述。但放在 OpenAI 的位置上,这句话的分量完全不一样——它意味着这家公司已经不把自己单纯当作一家模型公司。
GPU 是为通用并行计算设计,在推荐系统、传统的并行任务,跑得很好。
但面对今天主流的 Transformer、agent、长上下文推理,其实已经偏离了 GPU 当初的设计假设。尤其是 agent——多轮、持续执行、跨任务协同,整个系统层的低效会被放大很多倍。Richard Ho 当时的原话是:「GPU 把我们带到了今天,但它并不是为这种(AI 负载任务)而设计的。」
这句话背后的含义其实是:继续依赖 NVIDIA 所设定好的硬件路径,OpenAI 永远没办法把模型推到下一个量级。不是说 GPU 不能用,而是说在能耗、成本、效率这些维度上,OpenAI 无法一直被动地接受外部的硬件节奏。
所以这件事的本质从一开始就不是「OpenAI 进入芯片/硬件行业」,而是 OpenAI 想重新拿回 AI 运行的底层控制权。
如果只看媒体报道,你会以为 OpenAI 在做的事情是「组装一台手机」或者更深入一些的「自研一颗 AI 芯片」。但 Richard Ho 自己澄清得很直接:「我们不是在做一颗芯片,而是在做一个系统。」
这个「系统」包括芯片、机架、网络、电力、散热、数据中心——和 Google 当年做 TPU 的路径很像,但更强调端到端的控制。
进度的部分有点出乎我意料。Richard Ho 说团队是从零搭起来的,但「两年时间已经从空白走到 tape-out(芯片设计完成交付流片生产)」,并且已经有芯片在真实 workload 中跑了——他特意强调这不是纸面上的数据,而是「已经在真实环境里 work 的东西」。
两年从零到 tape-out 是个什么概念?传统芯片公司从架构到流片,五到七年很正常。Google TPU 第一代用了大约三年,而且是有 Jeff Dean 这种基础设施大牛背书、又有 Google 内部完整的工程协同体系作支撑。OpenAI 能做到两年——背后只能是两件事:要么是从 TPU、Apple、Google 等公司挖了大批已经成熟的硬件团队(这是事实),要么是 Broadcom 这类合作方在底层 IP 上提供了相当大的支持(这也部分是事实)。
但更值得说的是 OpenAI 和硬件供应商之间的关系边界。
「他们会参与 IP、physical design、packaging。」Richard Ho 谈到 Broadcom 时说得很克制,紧接着补了一句——「他们并不看到完整的架构。」他还专门解释,「很多时候他们只看到一部分,但看不到整体是怎么拼起来的。」
这句话其实透露了 OpenAI 自身的一个判断:架构层和工程层是两件事,前者必须完全握在自己手里。Broadcom 提供的是模块和制造能力,系统级的设计逻辑——也就是「这颗芯片到底要怎么和模型配合」这件事——必须留在内部——就像苹果做硬件的逻辑一样。
Richard Ho 提到,外界看到的模型是几个月发布一次,但内部其实是一条连续的 pipeline——「我们能看到接下来 6 到 9 个月模型会怎么变」。
这句话才是整段最关键的。它意味着 OpenAI 的硬件团队不是在为今天的模型设计芯片,而是在为还没出现的模型「预备」设计。
具体到细节上,这种「向前看」会影响很多决定:模型对内存压力的变化会直接决定 HBM 应该用 8-high、12-high 还是 16-high;网络带宽要扩到多少;新的 compression algorithm 出现会不会改变数据流的形状;inference 和 training 的比例正在快速变化(推理负载越来越重),这对硬件的要求又是另一套。
Richard Ho 把这一点总结成一句话:
「你必须为模型将要去的方向设计硬件,而不是为今天的模型。」
这就是 OpenAI 的芯片和 NVIDIA、AMD 的根本不同之处——它不是一颗对外销售的通用 GPU,而是高度贴合 OpenAI 自身模型路径的、几乎一对一定制的系统。从这个角度看,OpenAI 做芯片更像 Google 做 TPU,而不是像 NVIDIA 做 H100。
但即便如此,硬件优化的天花板远没有到。Richard Ho 反对「晶体管进步变慢,所以芯片红利结束」这个论断。他的判断是:单颗芯片确实在变慢,但整个系统层面还远远没有被优化好。memory hierarchy、networking、data movement——这些大瓶颈都没解。他举的例子很具体:现在高速 copper 互联在高带宽下只能支持大约 2 米的距离,这对数据中心布局是非常大的限制。
简单说一句:OpenAI 在做的事情不是把一颗芯片做得更快,而是把整个 AI 计算系统重新优化一遍。
手机这件事,是这个系统的最末端。
回到手机。
Richard Ho 在那场交流上有一句话,今天回头看几乎就是 OpenAI 做手机的全部理由——「手机不是为 agent 设计的」。
「今天的手机交互是 app-based、session-based 的,你打开一个 app,做一件事,关掉。但 agent 需要的是持续存在、持续执行、跨任务协同。一个真正的 agent 不会等你打开它再开始工作,它会在后台一直理解你的状态、调度你的任务、跟其他 agent 通信。」
这种交互范式,直接等同于在说:今天的 iOS 和 Android 都不是为它设计的。
这就是为什么 OpenAI 必须自己做。Richard Ho 的判断是「未来不是 cloud-only,也不是 edge-only,而是两者结合」——个人上下文、隐私数据、低延迟交互必须在设备端,复杂推理留在云端。如果一个 agent 想随时拿到用户的「当下状态」,它必须在操作系统层有完整权限。

现有手机系统在满足 AI 时代原生用户需求面前有天然的短板 | 图片来源:io
这件事在 iOS 和 Android 上很难干净地做——不是技术问题,是利益问题。Apple 不会把系统级权限完全开放给一个第三方 agent,Google 也不会。
也是从这个角度,去年 OpenAI 收购 Jony Ive 团队相关的公司(io)的逻辑就清楚了。Richard Ho 说,做端侧个人设备这部分工作「是目前最有意思的一块」——因为这是第一次把基础设施和消费电子设备真正接在一起。
这其实是 OpenAI 整个硬件战略里最有想象力的部分,也是最危险的部分。有想象力是因为它在做 Apple 当年没做的事:用 AI agent 把操作系统重写一遍。危险是因为消费电子是另一套游戏规则——产品节奏、供应链、零售、品牌——不是从云端工程师团队里能长出来的能力。
但 io 的存在解决了一部分问题。Jony Ive 不是来做芯片或者操作系统的,他是来做硬件形态和工业设计的——这本来就是 Apple 这些年从 OpenAI 手里能短暂保住的最后一块地。
消费电子的难度有多大,看过去两年其他 AI 公司在硬件上的尝试就清楚了。
每一家都想用 AI 重新定义某个硬件形态。但每一家走的路径不一样,结果也很不一样。
最早的是 Rabbit R1。
2024 年初的 CES 上,吕骋拿出那台橙色小盒子,喊出「干翻所有 App」——用 LAM(大动作模型)替代手机里 App 的交互方式,一句话订外卖、打车、订机票。当时引发的关注度堪比「AI 时代的 iPhone 时刻」,开售两周卖出 5 万台。

Rabbit R1 是首批 AI 硬件中为数不多「口碑反转」的产品|图片来源:Rabbit
但首批用户体验出来之后,事情翻得很快。先是被开发者证实是套壳安卓——Rabbit OS 实际上是 AOSP 的修改版,APK 可以直接装到 Pixel 6a 上跑。LAM 被发现依赖 OpenAI 的 API。续航 4 小时,订一次外卖要试十几次。
Rabbit 失败的真正原因不是产品质量,而是路径——它只做了硬件壳子,没碰底层。芯片是联发科 Helio P35(入门手机水平),系统是套壳 Android,模型靠第三方 API。这种做法的天花板很明显:你做的事情,一个手机 App 都能做,而且做得更好。
Meta 选了一条完全不同的路。
Meta 的判断是不挑战手机这个形态,让 AI 借眼镜这个已经存在的硬件形态进入日常。Ray-Ban Meta 做对了三件事:找 EssilorLuxottica(雷朋母公司)做合作方,让眼镜回归眼镜本身——时尚、轻、舒适;把 AI 做成「附加项」,299 美元起售;不强求每个用户都用 AI,先把一副好眼镜卖出去,AI 是 bonus。
结果是 Ray-Ban Meta 卖出超过 200 万副,Meta 一家拿下全球智能眼镜市场 75% 以上的份额。
但这条路的边界也清楚——Meta 解决的是「AI 怎么进入日常」这个问题,不是「AI 怎么重新定义计算」这个问题。眼镜只是一个加了摄像头和麦克风的入口,它不会替代手机,也没打算替代。
阿里千问基本上是 Meta 路径的中国版本。今年 2 月 MWC 发布、3 月 G1 系列发售(国补到手价 1997 元起)、4 月 S1 上市(国补到手价 3499 元),节奏很快。逻辑也清晰:千问 App 已经做到超 3 亿月活、8000 万 DAU,眼镜是把 AI 助手能力从手机延伸到日常佩戴形态——支付宝、高德、淘宝、飞猪一整套阿里生态都接进来,用户对眼镜说「点外卖」「打车」「翻译」就能办事。芯片是高通骁龙 AR1,系统在 Android 之上,模型用千问。
千问眼镜本质上是一次生态延伸,不是底层重构。它的优势是阿里生态足够厚,眼镜成为阿里 AI 服务的一个新入口。
把这三条路放在一起看,再对比 OpenAI——你会发现 OpenAI 是唯一一家在做「全栈重新定义」的公司:
Rabbit 想绕过 App 但没动操作系统,结果是空中楼阁;Meta 选择不挑战手机,让眼镜做配角,做对了爆款但天花板就是配角;千问跟随 Meta 的形态选择,把眼镜做成 AI 服务的延伸入口;而 OpenAI——从芯片、基础设施、能源、操作系统、设备一路打通。
这是另一个量级的事。
那场交流的最后,Richard Ho 还给了一句对未来格局的判断:
「(模型公司)不再是在芯片层赢,而是在系统层赢。」
这句话的意思是,未来的 AI 竞争不只是模型能力的竞争,而是整套系统能力的竞争——同样的功耗下能提供多少计算、能服务多少用户、延迟能压到多低。这种系统级的优势,单靠模型本身是没法替代的。
放在 OpenAI 的位置上看,这是一种相当自洽的逻辑:模型团队在 GPT、o 系列、agent 这些方向上往前推,但一旦推到某个体量,模型本身的进步就要被基础设施的瓶颈限制住。所以 OpenAI 必须从模型公司变成基础设施公司——再变成设备公司。
这也是为什么 Richard Ho 在被问到未来算力规模时,给出的数字是 20GW。把 OpenAI、Oracle、SoftBank 等合作方的规划加起来,未来需要的算力大约相当于十几到二十个核电站的发电量。
这个数字第一次听到的时候我没反应过来。20GW 已经不是数据中心能解决的问题——它是国家电网和能源政策的问题。Richard Ho 自己也说,「当你开始谈这种规模,就必须谈电力,甚至是国家安全」。
把这件事和「OpenAI 做手机」放在一起看,才能看清楚整个图景:一边是国家级别的能源基础设施,一边是用户兜里的一台设备,中间是一整套自研的芯片、系统、操作系统。OpenAI 想做的,是把这两端连起来。
把所有的点串起来——模型、基础设施、自研芯片、能源、edge device、操作系统——会发现 OpenAI 做手机不是一个单点决策,而是这条路径自然长出来的结果。
手机只是第一个被外界看见的形态。但真正的变化是更底下的那一层:计算范式正在从 app 为中心,转向 agent 为中心。
一旦默认入口变成 agent,今天的设备、芯片、操作系统,都会被重新定义一次。
这一次重新定义里,OpenAI 不再只是一家做模型的公司。
*头图来源:AI 生成
本文来自微信公众号 “极客公园”(ID:geekpark),作者:张勇毅