每个大模型,都要找到自己的非对称优势

深流研究所
个人专栏
热度: 3813

文章分析4月全球大模型密集发布现象,指出行业已从参数与跑分竞争转向差异化战略路径选择:Anthropic聚焦高价值客户与可靠性,DeepSeek押注开源生态与地缘安全,谷歌和腾讯则依托全栈闭环与场景共生构建护城河,强调模型价值取决于其嵌入独特生态后的化学反应而非单一能力。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

文 | 深流研究所,作者 | 刘晚亭

“四月是最残忍的季节”,艾略特《荒原》开篇这句诗,在4月的AI行业,有了新注脚。

这是大模型史上最拥挤的一个月,全球前沿模型与重大版本发布了超过15款,尤其是4月16日到24日,9天内就有9款大模型扎堆发布:Claude Opus 4.7、Qwen3.6-Max、Kimi K2.6、GPT-Image 2、蚂蚁Ling-2.6-flash、小米MiMo-V2.5-Pro、腾讯Hy3 Preview、ChatGPT-5.5、DeepSeek V4。

发布密度与竞争烈度,达到空前地步。

五一假期后,全球最大的模型分发市场OpenRouter,公布了最新的开发者市场份额,以token消耗量计,9款新发布大模型里,有4款冲进前五:腾讯14.7%排第一,Anthropic 13.6%第三,DeepSeek 10.3%第四,OpenAI 10.0%第五。

腾讯

腾讯登顶有限免的因素,但近期持续保持在榜单前列,说明重建后的混元还是立住了,不然哪怕免费也没人愿意用。相比之下,升级了代码能力的ChatGPT5.5排第五,倒是有点让人意外。

不过比排名更重要的,是背后反映的趋势:模型的参数和跑分,已经不是评判大模型的统一标准了。虽然今年大家都在讲代码能力,但公认代码更强的Anthropic和OpenAI,排名还不如最近拉响红色警报、在紧急提升代码能力的谷歌。

这说明什么?对大模型而言,能力之外的“资本”并不等于零,而且还越来越重要了。

可以说,大模型重点提升的能力,越来越同质化;但每一家押注的发展方向,却越来越分化了。

1、训练什么,共识已成

打开4月发布这些大模型的技术博客,你可能会反复看到这几个能力和相关的测评:推理、代码、Agent、长上下文。

这几个能力并不孤立,也不是并列关系,而是组成了一条能力链,让大模型从一个会聊天的机器,变成一个能独立完成复杂任务的助手。

推理能力,关系到这个助手的脑子好不好使。简单的事谁都能做,但如果一件事有五个步骤、中间还有几个坑,他能不能想清楚再动手,这就要看推理能力。

长上下文,决定助手的记性好不好。你把一份200页的合同扔过去,他能不能从头看到尾、前后对照着分析,还是看了后面忘了前面?记性不好的助手,就只能处理简单的小任务,做不了复杂工作。

代码能力,意味着这助手具备了实操的硬技能。脑子好、记性好,但什么工具都不会用,那就是只能动嘴不能动手,会写代码意味着他能直接操作电脑、处理数据、调用各种系统,把想法变成真实的输出。

Agent能力,则是决定这助手能不能独立干活。前三个能力再强,如果没有这个能力,意味着你得一步一步地指挥他,有了Agent能力,你只需要说"帮我把这件事搞定",他自己会拆解任务、制定步骤、遇到问题自己调整,真正实现自动化操作。

今年的行业共识是,AI从Chatbot的聊天工具转向agent的办事助理,如今大模型重点提升的这些做事相关能力,正是agent时代到来的直观证明。

但问题是,具备做事能力只是agent时代的基本要求,训练出来的能力要用来做什么,才是如今每一个大模型的必答题。

OpenRouter榜单前几名模型——Anthropic与谷歌,Deepseek与腾讯,中美各两家,新兴大模型公司与传统互联网公司各两家——的选择就是典型案例,说明大模型的发展走入了一个小径分岔的花园,每个大模型都要开始押注不同的路径,要找到、放大自己的非对称优势。

2、大路朝天,各走各边

作为现在势头最猛的大模型公司,Anthropic押注的路径很清晰:做强大且可靠的生产力工具,撬动高质量客户。

中国人都熟悉的一句话,“科学技术是第一生产力”,正在被Anthropic严格践行,刚发布的Claude Opus 4.7,主打的“代码能力”和“可靠性”,都以生产力第一为导向。

虽然很多人吐槽Claude价格贵,但如今主流的AI编程工具,Cursor、Windsurf、Replit……默认调用的模型还是Claude。Opus 4.7发布后,Cursor的CEO Michael Truell也提到:“在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。”

这次Opus 4.7还做了一个很特别的选择:主动降低模型的进攻性网络安全能力。明明可以更强,为什么要自我设限?因为要照顾核心客户的需求。

金融机构、医疗系统、法律事务所,这些客户不仅要求模型干活能力强,还要安全可靠。为此,Anthropic甚至雪藏了自己最强的Mythos模型,因为模型能力"过于危险",会打破网络攻防原有的平衡,所以不向普通公众发布。

不做平台,不抢入口,只做最强且可靠的生产力模型,卖给最看重质量的那批客户。可以说,Claude用实力证明贵是你的缺点,不是它的缺点。

Deepseek押注的路径也很清晰:用极致性价比,构建开源生态。

与Opus 4.7前后脚发布的Deepseek V4堪称“价格屠夫”,在标准定价下,DeepSeek V4-Pro的成本只有Opus 4.7的1/6,一旦输入命中缓存,这个比例会进一步变成了1/8。如果叠加新版发布后的限时优惠,输入缓存命中的价格相当于原价的1/40。

要知道,在综合能力上,Deepseek V4是跟两个月前发布的Opus 4.6、ChatGPT-5.4旗鼓相当的,这种高性能+低价带来的,是令人震撼的极致性价比,也难怪V4发布后,港股两大AI明星公司智谱和MiniMax都躺着中枪,股价都是单日大跌9%。

更关键的还有两件事:V4采用MIT协议全量开源,权重完全开放,任何公司都可以下载、修改、商用;V4完全在华为昇腾上完成训练,不依赖英伟达芯片。

这传递的信号很清晰了,DeepSeek要做的是开源世界的基础设施,让全球开发者都在DeepSeek的模型上构建应用,让前沿能力的价格门槛被打到地板上,让影响力以另一种方式蔓延出去。

放弃直接的商业回报,能换来两个非对称优势:一是开发者心智,谁先把价格打下来,谁就先建立起生态依赖;二是地缘安全垫,不依赖英伟达芯片就能做前沿模型,在美国芯片出口管制日趋收紧的背景下,这是国家级的战略价值。

同为大模型公司,Anthropic赌的是少数高价值客户的钱包,DeepSeek赌的是多数开发者的心智,但都要靠模型去建立独特的护城河,因为它们没有原生场景,缺少成熟生态。

3、全栈闭环、场景渗透

相比之下,谷歌和腾讯原有的业务成熟、场景丰富、生态繁荣,大模型扮演的角色跟模型公司有些不同,更多是成为放大自身业务优势的能力底座。

谷歌押注的是“全栈闭环”,因为它是少有的、在AI产业每一层都有布局的公司,芯片有TPU,模型有Gemini,云有GCP,应用有搜索、YouTube、Workspace、Android,谷歌现在做的,是把自研芯片、大模型、云平台和消费产品,串联成一个相互强化的闭环:

自己造的芯片训练出更强的AI,更强的AI让搜索、YouTube这些产品更好用,几十亿人每天用这些产品产生的数据,反过来让AI变得更聪明。与此同时,那些想用AI的企业花钱租谷歌云服务,这笔收入又降低了芯片成本,让整个循环转得更快。

这是大模型公司无法复制的优势。竞争对手可以买芯片,可以训练模型,但买不来几十亿每天离不开的用户,也没有那个把所有环节串在一起、让每一步都给下一步输血的系统。

这也给了Gemini更从容的底气。前两年Gemini一直被诟病跑分追不上GPT,体验比不上Claude,去年年底短暂的王者归来登顶SOTA,最近因为代码能力的落后,又拉响红色警报,正在全力补课。但有系统兜底,对谷歌来说,Gemini非常重要,但不是唯一重要,一时间的落后是能被容忍的,因为很少有大模型像它一样,有明确的应用场景、数据飞轮,也有明确的回报路径。

从这点看,腾讯混元的处境跟Gemini颇有相似之处,都是有明确应用场景、数据飞轮和回报路径的大模型。腾讯押注的"场景共生",也是让大模型成为腾讯产品和业务升级的新引擎,进一步发挥自身的产品、场景和生态优势。

最近HY3 preview发布时,用了“重建”这个词,并强调“真实场景可用性”——要知道,之前的混元看重榜单,甚至用监督微调去打榜,测试分数好看,但在真实场景基本用不了,腾讯很多需要AI能力的产品,都得去找其他解决方案。

现在为了适配场景,HY3 preview甚至自创了评估模型上下文学习能力的CL-bench,用来检验大模型在复杂上下文中的学习和指令遵循能力,显而易见,AI要在腾讯的社交场景里干活,这是必不可少的能力。

这种场景适配的路线,更直观体现在混元的Co-design机制上。过去大模型研发,一般是先闭门训练模型,训完交给产品团队去接入。现在混元研发用的Co-design机制,则是从设计阶段就让产品需求进入模型训练目标,把真实用户的行为和反馈,带进了模型的评测体系里,并让模型对齐业务中prompt的真实分布。

这套机制带来一个正向循环:产品团队共建评测集,模型据此迭代,改善后的模型回到产品接受真实用户检验,新反馈再进入下一轮,数据飞轮就这样转起来,模型能力和产品体验同步提升。

从这角度看,腾讯拥有的丰富产品和业务场景,就是混元的独特资产,越多产品接入和反馈,混元能跑得越快、做得更好。如今无论是成为OpenRouter的榜一大哥,还是腾讯内部越来越多产品接入,也说明混元的路径初步获得认可。

虽然腾讯和谷歌,一个赌的是基础设施级的复利,一个赌的是场景级的复利,但模型的角色是类似的:让模型的价值不靠“模型本身”,而靠“模型嵌进独有生态后的化学反应”。

产生化学反应需要时间,这也是二者的节奏相对慢一些的原因。腾讯股价最近跌跌不休,但只要路走对了,并能持续加速,这种独特优势迟早都能让AI投入兑现为业务收入。

谷歌最新一季度的财报已经做了一次示范:云业务营收同比增长63%,运营利润率33%,订单积压规模近乎翻倍达到462亿美元。化学反应的到来,让谷歌CEO劈材哥在财报会上说话很有底气:“我们在AI的投资与全栈布局,正在推动全业务线的业绩增长。”

4、主动取舍,打磨锯齿

无论国内和国外,如今的大模型,在激烈的竞争中,都在主动做出取舍。

OpenAI砍掉sora、押注统一的agent平台,要做个人AGI入口;豆包垂直打通模型与产品,押注与业务场景最适配的多模态能力;Kimi放弃曾经的长文档和写作优势,押注多智能体协同能力……

4月,斯坦福大学发布的《2026年人工智能指数报告》提到一个概念,今天的AI能力是“锯齿状前沿”,参差不齐、凹凸不一,在某些任务上已经远远超过人类,在另一些任务上连小学生都不如。

能拿下国际奥数金牌的顶级模型,读一个模拟时钟的准确率只有50%;能在代码工程基准接近满分的模型,在多步骤规划上依然一塌糊涂。

用这个概念来理解大模型竞争,再贴切不过:大模型不再追求全面领先,而是在主动选择自己的锯齿形状——在哪些场景磨得足够锋利,在哪些场景接受平庸。

在整个AI行业面临算力资源紧张,资本投入巨大,商业前景不明,回报预期抬高的当下,这是必然要做出的选择。

大模型从业者喜欢说bet(下注),如今无论是硅谷御三家,还是BAT的字节阿里腾讯,再到Deepseek、Kimi、智谱,确实都到了要下注的时候了——大模型能力是杠杆,你最终要撬动的东西到底是什么,你的非对称优势是什么,才是未来的决定性因素。

好戏还在后头。

声明:本文为入驻“火星财经 专栏”作者作品,不代表火星财经官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。