
AI行业正分化为两条技术路线:降价派(如智谱、Kimi、Taalas)通过价格战和专用芯片降低算力成本,追求基础设施化;降耗派(如小米)聚焦端侧模型效率优化,以低功耗、高集成实现软硬协同。二者本质是商业模式与技术哲学的博弈,终将走向云-端协同融合。
面对AI算力焦虑,大模型行业正走向分化:一边是智谱、Kimi们卷价格换规模的流量逻辑,另一边是小米们死磕降耗的端侧效率战。这不仅是技术路线的分水岭,更是算力基建化与软硬生态壁垒的终局博弈。
当下的AI圈,正陷入一场深刻的算力焦虑。
面对中美AI竞赛和龙虾带来的指数级膨胀大模型推理需求,算力荒成了悬在所有玩家头顶的达摩克利斯之剑。然而,面对同一道难题,行业却在走向两个截然不同的解题方向。
一边是以智谱、Kimi以及海外芯片新贵Taalas为首的“降价派”,他们挥舞着资本与硬件创新的大旗,试图将Token的价格彻底击穿,用极致的廉价换取生态规模;另一边,则是以小米等端侧巨头为代表的“降耗派”,他们抛出反共识的论调:出路不是更便宜的Token,而是更省Token的底层框架。
这不仅仅是技术路径的切磋,更是一场关乎AI时代话语权、商业模式乃至算力流向的路线之争。

在大模型的牌桌上,降价派无疑是目前声量最大、动作最猛的阵营,他们的核心诉求非常纯粹:既然算力昂贵阻碍了AI的普及,那就通过商业补贴或底层硬件的颠覆式重构,强行把Token的价格打下来,让AI像自来水一样廉价且随处可得。这一阵营中,既有试图用互联网经典打法做大蛋糕的AI新贵,也有从芯片物理层发起革命的硬核极客。
首先是软件与API层的商业降维打击。以智谱、Kimi、MiniMax等为代表的AI六小龙,在过去几个月内掀起了一场惨烈的价格战,部分基础模型的API调用价格甚至无限趋近于免费。
这种打法,互联网人再熟悉不过,典型的以亏损换规模。他们深知,大模型时代的护城河在于应用生态与数据飞轮。只有前端的Token足够便宜,B端开发者才敢放手去构建原生应用,C端用户才愿意毫无心理负担地将其作为高频工具。
这群AI新贵们正在用未来的预期市场份额,来摊薄眼下的算力成本。他们赌的是规模效应:当调用量呈几何级数爆炸时,数据中心的边际成本会随之骤降;同时,海量的高质量交互数据反哺模型,形成赢家通吃的垄断壁垒。在这个逻辑下,降价不是无奈之举,而是抢占AI时代操作系统入口的核武器。
其次是硅片层的物理级降价革命。降价派不仅有软件层面的商业补贴,更涌现出了如Taalas这样的硬件破局者。这家由Tenstorrent前CEO LjubisaBajic创立的AI芯片新星,其野心比单纯的API降价狂妄得多。Taalas的路线是:既然通用GPU运行大模型存在极大的资源冗余和能耗浪费,那不如直接将特定的大模型,比如千亿参数模型直接硬编码进硅片中,打造专用AI芯片(ASIC)。

图/LjubisaBajic
Taalas试图通过直接在芯片上实现模型的计算逻辑,从而绕过传统的内存读取瓶颈,实现相比传统GPU成百上千倍的效率提升和成本下降。如果说国内的AI六小龙是通过商业模式在前端把Token价格打下来,那么Taalas就是试图通过硬件重构在后端把Token的生产成本彻底打穿。
无论是补贴战还是造芯战,降价派的终极信仰都是摩尔定律的延续,他们坚信算力的绝对价格终将不可逆转地走向低廉,而谁能在这个过程中率先提供最便宜的算力,谁就能成为AI时代的AWS或基础设施霸主。
就在降价派在云端算力场厮杀得难解难分之时,以小米为代表的降耗派却在另一条路上逆向而行。小米MiMo团队负责人罗福莉的一番话,精准概括了这一阵营 的技术哲 学:当下AI的算力荒,出路不是更便宜的Token,而是更省Token的框架和更高效的模型共同进化。

如果说降价派是在寻找更便宜的水源,那么降耗派则是在研发更抗旱的作物。
这一路线的崛起,本质上是由硬件厂商的基因和端侧落地的刚需所决定的,对于小米这样的科技制造巨头而言,未来的主战场不在远在天边的数据中心,而在于手机、汽车、AIoT等数以亿计的端侧设备。在云端,你可以通过无限堆叠GPU来大力出奇迹;但在端侧,手机的电池容量是有物理极限的, 内存带宽是极其金贵的,芯片的散热空间是寸土寸金的。
在这些苛刻的物理约束下,端侧设备根本无法承受海量无节制 的Token消耗,即便云端的Token降到零元,只要依然依赖云端运算,就会面临网络延迟、隐私泄露以及设备本身联网功耗的问题。因此,降耗派必须从根源上解决问题:让模型在产生同等甚至更高质量回答的同时,极大减少对计算资源的消耗。
具体到技术落地,这是一场极其硬核的架构瘦身战。降耗派的做法不是简单的模型压缩或蒸馏,而是对AI运转框架的底层重构。例如,通过改进注意力机制,引入如Mamba等线性复杂度的状态空间模型,或者优化键值缓存的管理策略,使得模型在处理长文本时不再呈指数级消耗内存。更高效的Tokenizer设计,也能让模型用更少的Token表达更多的信息密度。
对于小米等硬件大厂而言,把Token的消耗打下来,直接关系到其核心商业模式的成败。一部搭载端侧大模型的AI手机,如果模型运行极其耗电,或者占用过多运存导致系统卡顿,那将是灾难性的用户体验。因此,降耗派的终极目标,是将大模型变成一种低功耗、高效率的基础组件,无缝熔铸进操作系统的底层。他们不在乎云端调用一次收多少钱,他们在乎的是,如何让每一次AI推理的电量消耗降到最低,让哪怕是中低端硬件也能流畅运行强大的智能。这是一种典型的产品经理嫁接硬件工程师思维,用极致的工程优化去对抗算力黑洞。

当降价派和降耗派在各自的赛道上狂奔时,我们必须看清:这并不是一场非此即彼的零和博弈,而是AI产业链走向成熟过程中的必然分工与商业错位。这两条路线的交锋,本质上是两种截然不同的商业模式在AI时代的碰撞。
降价派代表的是水电煤逻辑,无论是不断探底API价格的AI六小龙,还是试图通过颠覆性芯片重塑算力成本的Taalas,他们都在致力于将AI算力变成社会的基础设施。在他们的蓝图中,算力应该像电力一样,用户无需关心发电机是如何工作的,只需要插上插座、按需付费。这种逻辑的护城河在于网络效应和极高转换成本。一旦海量的企业级应用和消费级App建立在他们廉价且高效的API之上,庞大的生态惯性将使得后来者极难颠覆。但其面临的风险也同样巨大:在真正形成寡头垄断之前,长期的失血和价格战可能拖垮任何一家资金链稍显脆弱的明星公司。
降耗派代表的则是消费电子与体验逻辑,以小米为首的端侧巨头,他们不需要通过卖API来赚钱。他们赚钱的方式,是卖出更多搭载了极佳AI体验的手机、汽车和智能家居。在他们的商业闭环里,优秀的、低消耗的AI模型,是硬件产品的高级附属价值。降耗派的护城河在于软硬一体的闭环体验和离用户更近的场景占有。当算力被高效压缩在设备本地时,他们掌握了用户最隐私的数据、最直接的交互入口,这种壁垒是云端大模型无法轻易穿透的。
推演终局,这两条路线大概率将走向云端协同的融合,未来的AI应用场景中,需要重度计算、海量知识检索的通用复杂任务,将交由降价派构建的廉价云端超算中心来完成,大吃大嚼着廉价的Token;而涉及个人隐私、需要极低延迟响应、结合环境感知的个性化任务,则将由降耗派优化到极致的端侧低功耗模型来处理。

图/AI生成
然而,在融合到来之前的这段窗口期,路线之争依然会非常激烈,因为资源的分配是有限的,资本的目光是挑剔的。是押注那些能够通过疯狂降价烧出个未来的超级平台,还是看好那些稳扎稳打、通过技术降耗提升硬件毛利的生态巨头?这不仅是投资人的考题,更是所有AI从业者必须面对的战略抉择。
历史总是惊人地相似。如今大模型领域的这条分水岭,像极了当年PC时代的云端服务器与本地芯片效率之战,又仿佛智能手机初期的流量补贴与硬件体验之争。
有人以亏损换取明天,用降价的利刃劈开市场;有人以技术打磨基石,用降耗的内功构筑壁垒。“把Token价格打下来”和“把Token消耗打下来”,终极目标都是为了让AI真正走向普罗大众。
但商业世界是残酷的。当资本退潮,当大模型的算力红利被吃透,你认为谁的路线能构筑起更深、更坚固的护城河?是做大蛋糕的降价派,还是做精架构的降耗派?
罗福莉X,11:13 Apr5 2026
钛媒体APP,《“邪修”AI芯片的Taalas,成色如何?》
21世纪经济报道,《2025年,“大模型价格战”不怕亏钱了?》
每日经济新闻,《豆包引流抖音,Kimi连通京淘:大模型“带货”烽烟起引爆智能入口争夺战》
本文来自微信公众号“科技新知”(ID:kejixinzhi),作者:凤梨,编辑:九黎