Token消耗暴增千倍，云厂商开始慌了

个人专栏

2026-04-09热度: 12310

文章分析北美云计算巨头微软、AWS、谷歌在AI爆发期面临的成本失控危机，指出Token计费模式导致大客户账单不可预测、抑制规模化应用，进而推动三巨头转向PTU（预配吞吐量单位）等长期承诺定价模式，以换取收入确定性与客户深度绑定，并探讨该转型对芯片商、应用层及整个AI产业链价值分配的深远影响。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

2026年的春天，北美云计算巨头的财报季变成了一场集体“受难日”。

微软智能云部门季度营收首破500亿美元，Azure同比增长39%，财报发出后股价却暴跌近10%；亚马逊AWS收入创下13个季度以来最快增速，次日股价重挫11%；谷歌云营收暴涨48%，股价依然在盘后由涨转跌。

原因只有一个字：钱。或者说，正在失控的AI账单。

翻开巨头们的财报会发现，微软单季资本支出375亿美元，同比增长66%，虽未给出全年指引，但有分析称，若按照单季资本支出趋势，全年支出将超越千亿美元量级；亚马逊宣布2026年支出2000亿美元；谷歌计划投入1750-1850亿美元，几乎是2025年的两倍。

三家巨头合计支出突破5000亿美元，相当于挪威2024全年GDP。

资本市场在焦虑什么？是云业务增长不够好？显然不是。大客户用得越多，云厂商的账单反而越容易“爆雷”。一场围绕“怎么收钱”的暗战，正在硅谷悄悄上演。输赢将重塑整个AI产业链的价值分配。

01 Token模式开始惩罚深度用户？

一个不容忽视的事实是，Token计费模式，成为AI普及的最大功臣之一。

2024年初，中国日均词元（Token）调用量为1000亿；至2025年底，跃升至100万亿；今年3月，已突破140万亿，两年增长超千倍。

同时，随着“小龙虾”爆火，AI从“玩具”变成了“生产工具”，Token模式的弊端开始显现。

以AI智能体为例，一个传统的聊天机器人，回答一个问题消耗几百到几千个Token。但一个能独立完成任务的AI智能体，每次执行需要多轮推理、反复调用工具、读取大量上下文。业内人士测算，智能体的Token消耗动辄放大数十倍，复杂任务甚至是普通对话的百倍、千倍。

OpenAI在2026年3月关停了视频生成工具Sora，其原因之一就是入不敷出。新京报援引分析机构SemiAnalysis的测算称，Sora日均运营成本接近1500万美元，年度成本高达54亿美元。

OpenAI项目负责人曾直言：“目前的经济模式完全不可持续。”视频生成的算力消耗远高于文字、图像生成，一次视频生成的GPU资源，足够ChatGPT回答数十个问题，严重挤压核心业务资源。

Token模式下，用AI越多，账单越失控。英伟达CEO黄仁勋甚至说，未来英伟达工程师都会有自己的“年度Token预算”，如果一个高薪工程师一年下来没消耗多少Token，反倒显得奇怪。

一个行业走到“用量越大越恐惧”这一步，说明收费模式出了根本问题。

你用得越多，我赚得越多，听起来很不错。但大客户面对上下大幅浮动的AI账单，CFO根本不敢批准规模化预算。Token模式正在惩罚它最应该挽留的人：那些用量最大、场景最深的头部客户。这与云厂商做大蛋糕的长期利益背道而驰。

在此背景下，北美云厂商先后祭出的新武器叫PTU：预配吞吐量单位。

简单说，客户预先购买一定数量的算力容量，按月、按季或按年付固定费用，与实际Token消耗量无关。Token模式是“吃多少付多少”，PTU是“包月自助餐”。客户获得成本确定性，云厂商获得客户关系锁定。

这背后的博弈逻辑就完全变了。

Token模式下，双方是“零和博弈”， 客户省钱等于云厂少赚，客户多花等于云厂多赚。但大客户因恐惧成本失控而压缩用量，导致云厂收入增长不及预期。

PTU模式下，博弈变成了“正和”， 客户锁定预算后敢于扩大AI用量，云厂的收入增长更可持续。本质是将风险从客户侧转移到云厂商侧，换取客户关系的深度绑定。

国信证券将中国移动互联网资费变迁做了一个类比。

2G时代，流量按KB计费，0.01元/KB，用户用流量像在滴血。3G时代，资费转向MB，150元包3GB，用户开始放开手脚。4G时代，“提速降费”推动无限流量套餐全面爆发，像2016年腾讯“大王卡”19元包月、腾讯系APP免流，用户彻底从“购买流量”转向“购买服务”。5G时代，计费进一步演变为“按速率分级”，流量多少不再是定价核心。

每一次计费模式变革，都是一次产业链话语权的重新分配。运营商放弃“按KB收费”的暴利模式，换来的是用户月均流量从30M暴涨至10GB以上，蛋糕总量扩大了数百倍。

今天云厂商的选择，与当年运营商如出一辙。他们宁愿牺牲短期毛利率，也要换取长期合约的确定性。国信证券研报指出，PTU转型将使云业务毛利率结构从“高弹性波动”向“高韧性”转变，即短期承压，长期更健康、更稳定。

02 三巨头打法差异化的阳谋

微软、AWS、谷歌三家巨头，表面上都在推PTU，骨子里的打法却截然不同。

微软靠的是生态捆绑。 微软的武器是Windows、Office 365、GitHub构成的庞大生态系统。它推出“Azure AI承诺计划”，鼓励企业客户签订1-3年消费承诺合同。本季度，微软商业剩余履约义务飙升至6250亿美元，同比增长一倍以上。其中45%来自OpenAI的2500亿美元新协议。

微软的算盘很精，最高级的定价权，是让客户无法单独核算AI成本。当AI变成Word里的一个按钮，预算自然并入软件订阅费中。但过度依赖单一客户也引发市场担忧，一旦OpenAI经营承压，连锁反应将直击微软。

AWS靠的是成本优势。 AWS的底气是自研Trainium和Inferentia芯片，以及全球最大的云基础设施规模。它大力推广“AI/ML节省计划”，为客户提供比按需付费显著优惠的价格。

亚马逊CEO安迪·贾西在财报会上的表态极为强硬：“在年化营收1420亿美元基础上实现24%同比增长，与竞争对手在明显更小基数上实现更高百分比增长，是截然不同的。”

AWS用极致供应链效率构建护城河，它不怕价格战，因为单位算力成本已是行业最低。在财报会上，高管多次强调“新增算力能快速变现”。言下之意是，它赌的是规模效应最终碾压一切。

而谷歌则是靠性能溢价。谷歌在AI技术积累上底蕴最深，自研TPU已迭代至第七代，Gemini模型月活用户达7.5亿。第四季度谷歌云营收增长48%，增速远超竞争对手。

谷歌将“承诺使用折扣”扩展至AI平台，吸引对性能有极致要求的客户。它走的是技术奢侈品路线，不求客户最多，但求最赚钱的高端客户离不开它。

与苹果的合作更是关键一步：谷歌已成为苹果首选云服务商，两家公司正合作开发基础模型，这将确保谷歌AI技术通过苹果设备触达全球用户。

三种策略代表三种不同的经济护城河：微软靠转换成本，AWS靠规模效应，谷歌靠技术领先。要判断哪家将从PTU转型中获益最多，核心是评估其护城河类型能否在长期合同锁定期内持续有效。

不过，PTU转型的影响不会止步于云厂商与大客户之间，它将沿产业链向上游芯片商、下游应用商传导。

上游芯片商最先受益。Token模式下，云厂商算力采购是“脉冲式”的——流量暴增时紧急加单，低谷时资源闲置。PTU模式下，长期合同让云厂商敢于向上游下达更平滑、更可预测的订单。

微软计划2026年内将AI算力提升超80%，未来两年数据中心规模翻倍。英伟达等芯片商的产能规划将更从容，供应链效率显著提升。

下游AI应用商则加速洗牌，PTU模式下，大客户锁定资源后，中小客户的资源池可能被挤压。AI应用创业门槛正在抬高，过去靠Token按需付费就能启动的项目，未来可能面临更高起步成本。与此同时，能帮客户优化PTU利用率的工具层公司——AI负载调度、成本管理SaaS——将迎来结构性机会。