
文章分析AI发展三阶段跃迁:从ChatGPT的可用性、o1模型的可靠性,到2025年底Agent(Opus 4.5/GPT-5.2-Codex)驱动的任务自主执行。作者指出AI正从辅助工具升级为执行基础设施,算力需求结构性上升,资本开支反映真实需求而非投机泡沫,核心驱动力在于agent harness带来的范式变革与企业级生产力重构。
原文标题:Agent Over Bubbles原文作者:Ben Thompson,Stratechery编译:Peggy,BlockBeats
原文作者:律动BlockBeats
原文来源:https://stratechery.com/2026/agents-over-bubbles/
转载:火星财经
编者按:在 AI 投资与产业叙事持续升温的背景下,「是否存在泡沫」已成为市场反复讨论的核心问题。一方面,极端风险叙事不断强化人们对技术失控的担忧;另一方面,快速扩张的资本开支与估值水平,也让「泡沫论」始终挥之不去。在这种分歧之下,市场判断呈现出明显的不确定性。
本文作者 Ben Thompson 是科技分析平台 Stratechery 的创始人,长期关注科技产业结构与商业模式演进。在英伟达 GTC 2026 召开之际,他修正了此前对「AI 是否处于泡沫之中」的判断:不再将当前视为泡沫,而是将其理解为一轮由技术范式变化驱动的结构性增长。
这一判断,建立在对 LLM 三次关键跃迁的观察之上。自 2022 年 ChatGPT 首次向市场展示大语言模型能力以来,LLM 已从「可用但不可靠」,发展到「具备推理能力」,再到「能够独立执行任务」。尤其在 2025 年底,随着 Anthropic Opus 4.5 与 OpenAI GPT-5.2-Codex 的发布,agentic 工作负载开始从概念走向现实。
其中,关键不在模型本身,而在「agent harness」的出现。Agent 将用户与模型解耦,负责调度模型、调用工具并验证结果,使 AI 从需要人为持续干预的工具,转变为可以托付任务的执行系统。这一变化不仅提升了可靠性,也拓展了 AI 的应用边界。
基于这一范式转变,作者进一步指出,AI 需求的扩张不再取决于用户规模,而更多取决于单位用户的调度能力;同时,agentic 工作负载具备「赢家通吃」的特征,将持续推高对高性能算力的需求,并为芯片厂商与云服务提供商带来结构性机会。
在这一框架下,当前的大规模资本开支不再只是对未来的投机性押注,而更可能是对真实需求的前置反映。随着 AI 从「辅助工具」走向「执行基础设施」,其经济影响,或许才刚刚开始显现。
以下为原文:
过去,我更倾向于后者,甚至认为,泡沫在某些阶段未必是坏事。
但此刻,站在 2026 年 3 月、英伟达 GTC 开幕之际,我的判断发生了变化:这未必是泡沫。(而具有讽刺意味的是,这一判断本身,可能恰恰正是泡沫的信号。)
过去几周,我在讨论英伟达和甲骨文财报时,多次提到 LLM 已经历三次关键跃迁。
第一阶段:ChatGPT
第一个拐点是 2022 年 11 月 ChatGPT 的发布,这几乎无需赘述。尽管基于 Transformer 的大语言模型早在 2017 年就已出现,能力也在持续提升,但长期被低估。甚至在 2022 年 10 月,我在 Stratechery 的访谈中还认为,这项技术虽惊人,却缺乏产品化与创业动能。
但几周之后,一切彻底反转。ChatGPT 让世界第一次真正意识到 LLM 的能力。
不过,早期版本也留下了两个深刻印象,尤其被「泡沫论者」反复提及:
第一,模型经常出错,甚至在不知道答案时会「幻觉式」编造。这让它更像一种「炫技工具」,惊艳但不可靠。
第二,即便如此它仍然非常有用,但前提是你必须知道如何使用,并且需要不断校验输出、纠正错误。
第二阶段:o1
第二个拐点是 2024 年 9 月 OpenAI 发布的 o1 模型。当时,LLM 已因更强的基础模型与后训练技术而显著进步,输出更准确、幻觉更少。
但 o1 的关键突破在于:它会先「思考」,再回答。
传统 LLM 是路径依赖的,一旦在推理过程中走错,就会一路错到底。这是「自回归模型」的根本弱点。而推理模型会对答案进行自我评估,它会先生成答案,再判断是否正确,必要时尝试其他路径。
这意味着,模型开始主动管理错误,减少用户干预负担。结果也非常显著。如果说 ChatGPT 的突破在于「让 LLM 可用」,那么 o1 的突破在于「让 LLM 可靠」。
第三阶段:Agent(Opus 4.5 / Codex)
2025 年底,第三次跃迁出现。
2025 年 11 月,Anthropic 发布 Opus 4.5,起初反响平平。但到了 12 月,搭载该模型的 Claude Code 突然展现出前所未有的能力;几乎同时,OpenAI 发布 GPT-5.2-Codex,也表现出类似水平。
人们此前一直在谈「Agent」,但在这一刻,它们终于开始真正完成任务,甚至是需要数小时的复杂任务,而且是正确完成。
关键不在模型本身,而在控制层(harness),也就是调度模型、调用工具、执行流程的软件层。换句话说,用户不再直接操作模型,而是下达目标,由 Agent 调度模型、调用工具、执行流程并验证结果。
以编程为例:
·第一阶段:模型生成代码
·第二阶段:模型在生成过程中进行推理
·第三阶段:Agent 生成代码 → 执行测试 → 自动运行测试 → 错了就重来,用户无需持续介入。
这意味着,ChatGPT 时代的核心缺陷正在被系统性解决,更高的正确率、更强的推理能力、自动验证机制。
唯一剩下的问题是:到底该用它做什么?
我之所以反复强调这三个拐点,是为了说明为什么整个行业正在严重缺算力,以及为什么超大规模资本开支是合理的。
三种范式,对算力需求完全不同:
·第一阶段:训练耗算力,但推理成本较低
·第二阶段:推理成本暴涨(更多 token + 更高使用频率)
·第三阶段(Agent):多次调用推理模型、Agent 本身也消耗算力(甚至偏向 CPU)、使用频率进一步爆炸
但更重要的是第三点:需求结构的变化被严重低估。
目前,使用聊天机器人的人远多于使用 Agent 的人,而且很多人其实并没有充分使用 AI。原因在于使用 AI 需要「主动性」。LLM 是工具,它没有目标、没有意志,只能被主动调用。
但 Agent 改变了这一点,它降低了对人类主动性的要求。未来,一个人可以同时指挥多个 Agent。
这意味着,即使只有少数人具备「主动性」,也足以带动巨大算力需求与经济产出。
AI 仍然需要「人来驱动」,但不再需要「很多人」。
消费端对 AI 的付费意愿有限,这一点已经逐渐清晰。真正愿意为生产力买单的,是企业。
企业最兴奋的,不只是 AI 提升效率,而是 AI 可以替代人力,并且更高效。
目前的现实情况是,大公司里真正推动业务向前的,往往是少数人;但组织却很庞大,带来大量协调成本。Agent 的作用,是将「推动价值的人」的影响力放大,同时减少组织摩擦。
结果就是「更少的人 → 更高的产出 → 更低的成本」。这也是为什么,未来的裁员,很可能不只是「周期调整」,而是结构变化。
公司会重新思考,不仅思考是否「疫情时期招多了人」,还会思考在 AI 时代,我们是否本就不需要这么多人?
从这个角度看,「不是泡沫」的逻辑就比较清楚了:
1.LLM 的核心缺陷正在被算力与架构持续解决
2. 驱动需求的人数门槛正在下降
3.Agent 带来的收益,不只是降本,更是增收
因此,不难理解为什么所有云厂商都在说,算力供不应求,并持续大幅增加资本开支。
另一个关键问题是,如果模型最终商品化,OpenAI 和 Anthropic 还能赚钱吗?
传统观点认为不会,但 Agent 改变了这一点。关键在于,真正的价值不在模型本身,而在「模型 + 控制系统」的整合。
利润往往流向「整合层」,而非可替代的模块。就像苹果,它的硬件之所以不被商品化,是因为与软件深度整合。同理,Agent 需要模型与 harness 的深度协同,这使得 OpenAI 和 Anthropic 成为价值链中的关键整合者,而非可替代的一环。
微软的转变就是一个信号,它原本强调「模型可替换」,但在推出真正的 Agent 产品后,不得不放弃这一点。
这意味着模型未必会彻底商品化,因为 Agent 需要一体化能力。
我必须回到开头的那个悖论。
我一直认为,只要大家还在担心泡沫,那就还不是泡沫;真正的泡沫,是没人再质疑它的时候。
而现在,我的结论是:这不是泡沫。
但如果「我说这不是泡沫」本身,反而证明它是泡沫,那也只能如此了。