定价权VS消耗战：大模型下半场的续命法则

个人专栏

2026-04-08热度: 5204

AI行业正分化为两条技术路线：降价派（如智谱、Kimi、Taalas）通过价格战和专用芯片降低算力成本，追求基础设施化；降耗派（如小米）聚焦端侧模型效率优化，以低功耗、高集成实现软硬协同。二者本质是商业模式与技术哲学的博弈，终将走向云-端协同融合。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

面对AI算力焦虑，大模型行业正走向分化：一边是智谱、Kimi们卷价格换规模的流量逻辑，另一边是小米们死磕降耗的端侧效率战。这不仅是技术路线的分水岭，更是算力基建化与软硬生态壁垒的终局博弈。

当下的AI圈，正陷入一场深刻的算力焦虑。

面对中美AI竞赛和龙虾带来的指数级膨胀大模型推理需求，算力荒成了悬在所有玩家头顶的达摩克利斯之剑。然而，面对同一道难题，行业却在走向两个截然不同的解题方向。

一边是以智谱、Kimi以及海外芯片新贵Taalas为首的“降价派”，他们挥舞着资本与硬件创新的大旗，试图将Token的价格彻底击穿，用极致的廉价换取生态规模；另一边，则是以小米等端侧巨头为代表的“降耗派”，他们抛出反共识的论调：出路不是更便宜的Token，而是更省Token的底层框架。

这不仅仅是技术路径的切磋，更是一场关乎AI时代话语权、商业模式乃至算力流向的路线之争。

降价派的暴力美学

Kimi

在大模型的牌桌上，降价派无疑是目前声量最大、动作最猛的阵营，他们的核心诉求非常纯粹：既然算力昂贵阻碍了AI的普及，那就通过商业补贴或底层硬件的颠覆式重构，强行把Token的价格打下来，让AI像自来水一样廉价且随处可得。这一阵营中，既有试图用互联网经典打法做大蛋糕的AI新贵，也有从芯片物理层发起革命的硬核极客。

首先是软件与API层的商业降维打击。以智谱、Kimi、MiniMax等为代表的AI六小龙，在过去几个月内掀起了一场惨烈的价格战，部分基础模型的API调用价格甚至无限趋近于免费。

这种打法，互联网人再熟悉不过，典型的以亏损换规模。他们深知，大模型时代的护城河在于应用生态与数据飞轮。只有前端的Token足够便宜，B端开发者才敢放手去构建原生应用，C端用户才愿意毫无心理负担地将其作为高频工具。

这群AI新贵们正在用未来的预期市场份额，来摊薄眼下的算力成本。他们赌的是规模效应：当调用量呈几何级数爆炸时，数据中心的边际成本会随之骤降；同时，海量的高质量交互数据反哺模型，形成赢家通吃的垄断壁垒。在这个逻辑下，降价不是无奈之举，而是抢占AI时代操作系统入口的核武器。

其次是硅片层的物理级降价革命。降价派不仅有软件层面的商业补贴，更涌现出了如Taalas这样的硬件破局者。这家由Tenstorrent前CEO LjubisaBajic创立的AI芯片新星，其野心比单纯的API降价狂妄得多。Taalas的路线是：既然通用GPU运行大模型存在极大的资源冗余和能耗浪费，那不如直接将特定的大模型，比如千亿参数模型直接硬编码进硅片中，打造专用AI芯片（ASIC）。

Kimi

图/LjubisaBajic

Taalas试图通过直接在芯片上实现模型的计算逻辑，从而绕过传统的内存读取瓶颈，实现相比传统GPU成百上千倍的效率提升和成本下降。如果说国内的AI六小龙是通过商业模式在前端把Token价格打下来，那么Taalas就是试图通过硬件重构在后端把Token的生产成本彻底打穿。

无论是补贴战还是造芯战，降价派的终极信仰都是摩尔定律的延续，他们坚信算力的绝对价格终将不可逆转地走向低廉，而谁能在这个过程中率先提供最便宜的算力，谁就能成为AI时代的AWS或基础设施霸主。

降耗派的效率革命

就在降价派在云端算力场厮杀得难解难分之时，以小米为代表的降耗派却在另一条路上逆向而行。小米MiMo团队负责人罗福莉的一番话，精准概括了这一阵营的技术哲学：当下AI的算力荒，出路不是更便宜的Token，而是更省Token的框架和更高效的模型共同进化。

Kimi

如果说降价派是在寻找更便宜的水源，那么降耗派则是在研发更抗旱的作物。

这一路线的崛起，本质上是由硬件厂商的基因和端侧落地的刚需所决定的，对于小米这样的科技制造巨头而言，未来的主战场不在远在天边的数据中心，而在于手机、汽车、AIoT等数以亿计的端侧设备。在云端，你可以通过无限堆叠GPU来大力出奇迹；但在端侧，手机的电池容量是有物理极限的，内存带宽是极其金贵的，芯片的散热空间是寸土寸金的。

在这些苛刻的物理约束下，端侧设备根本无法承受海量无节制的Token消耗，即便云端的Token降到零元，只要依然依赖云端运算，就会面临网络延迟、隐私泄露以及设备本身联网功耗的问题。因此，降耗派必须从根源上解决问题：让模型在产生同等甚至更高质量回答的同时，极大减少对计算资源的消耗。

具体到技术落地，这是一场极其硬核的架构瘦身战。降耗派的做法不是简单的模型压缩或蒸馏，而是对AI运转框架的底层重构。例如，通过改进注意力机制，引入如Mamba等线性复杂度的状态空间模型，或者优化键值缓存的管理策略，使得模型在处理长文本时不再呈指数级消耗内存。更高效的Tokenizer设计，也能让模型用更少的Token表达更多的信息密度。

对于小米等硬件大厂而言，把Token的消耗打下来，直接关系到其核心商业模式的成败。一部搭载端侧大模型的AI手机，如果模型运行极其耗电，或者占用过多运存导致系统卡顿，那将是灾难性的用户体验。因此，降耗派的终极目标，是将大模型变成一种低功耗、高效率的基础组件，无缝熔铸进操作系统的底层。他们不在乎云端调用一次收多少钱，他们在乎的是，如何让每一次AI推理的电量消耗降到最低，让哪怕是中低端硬件也能流畅运行强大的智能。这是一种典型的产品经理嫁接硬件工程师思维，用极致的工程优化去对抗算力黑洞。

殊途同归的商业局

Kimi

当降价派和降耗派在各自的赛道上狂奔时，我们必须看清：这并不是一场非此即彼的零和博弈，而是AI产业链走向成熟过程中的必然分工与商业错位。这两条路线的交锋，本质上是两种截然不同的商业模式在AI时代的碰撞。

降价派代表的是水电煤逻辑，无论是不断探底API价格的AI六小龙，还是试图通过颠覆性芯片重塑算力成本的Taalas，他们都在致力于将AI算力变成社会的基础设施。在他们的蓝图中，算力应该像电力一样，用户无需关心发电机是如何工作的，只需要插上插座、按需付费。这种逻辑的护城河在于网络效应和极高转换成本。一旦海量的企业级应用和消费级App建立在他们廉价且高效的API之上，庞大的生态惯性将使得后来者极难颠覆。但其面临的风险也同样巨大：在真正形成寡头垄断之前，长期的失血和价格战可能拖垮任何一家资金链稍显脆弱的明星公司。

降耗派代表的则是消费电子与体验逻辑，以小米为首的端侧巨头，他们不需要通过卖API来赚钱。他们赚钱的方式，是卖出更多搭载了极佳AI体验的手机、汽车和智能家居。在他们的商业闭环里，优秀的、低消耗的AI模型，是硬件产品的高级附属价值。降耗派的护城河在于软硬一体的闭环体验和离用户更近的场景占有。当算力被高效压缩在设备本地时，他们掌握了用户最隐私的数据、最直接的交互入口，这种壁垒是云端大模型无法轻易穿透的。

推演终局，这两条路线大概率将走向云端协同的融合，未来的AI应用场景中，需要重度计算、海量知识检索的通用复杂任务，将交由降价派构建的廉价云端超算中心来完成，大吃大嚼着廉价的Token；而涉及个人隐私、需要极低延迟响应、结合环境感知的个性化任务，则将由降耗派优化到极致的端侧低功耗模型来处理。

Kimi