Claude降智，是自杀还是装死？

个人专栏

2026-04-13热度: 11154

Anthropic旗下Claude Opus 4.6模型在BridgeBench评测中排名从第2跌至第10，准确率大幅下降、幻觉率翻倍，引发用户信任危机；但公司正战略转向全栈应用构建平台Claude Projects，以‘AI替代编程’重构开发范式，将模型定位为够用即可的底层引擎，核心目标是构建高粘性平台生态，应对API商业模式下的模型商品化风险。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

【导读】全球第2掉到第10，Claude最强模型被曝「降智」，BridgeBench实锤了！但Anthropic不在意呢？

Anthropic完蛋了？

最近，AMD的AI总监实锤Claude Code降智，直言「对复杂任务已不可用」。

现在，BridgeBench评测最新报告，又给了Anthropic一记重拳！

数据触目惊心：Claude Opus 4.6的全球排名从第2名垂直坠落至第10名：

准确率从83.3%断崖式跌至68.3%，幻觉率几乎翻倍，增加了98%。

Claude Projects

那一刻，Claude降智变蠢、用户体验变差，冰冷的数字终结了所有用户的疑问——

不是自己的问题，Claude Opus 4.6确实变差了！

Claude Projects

Claude用户感觉上当受骗了！

Claude Projects

想象一下，如果你依赖这个模型处理任何关键任务，而他们却可以在不告知你的情况下，直接换成一个差得多的模型。

Claude Projects

但用户质疑：「这怎么可能合法？」，信任开始破灭，对Anthropic的嘲讽铺天盖地，连最忠实的拥趸都开始动摇。

但就在全网群嘲的另一边，Anthropic王炸出来了——疑似内部工具界面截图流出。

Claude Projects

画面显示的东西，让所有关于「Claude变笨了」的讨论瞬间变得无关紧要——Claude Projects正在测试一套完整的全栈应用构建系统。

不是帮你写代码，是帮你造产品。

所有人盯着模型分数吵架的时候，Anthropic已经换了牌桌。

泄露图里藏着什么？

先说那张截图到底拍到了什么。

根据多方爆料交叉验证，泄露画面展示的是Claude Projects内部正在测试的一套「一键式开发套件」。

Claude Projects

界面上赫然列着一排预置模板：AI聊天机器人、互动小游戏、商业落地页、SaaS数据仪表盘……几乎覆盖了独立开发者最高频的需求场景。

Claude Projects

但模板只是表面。

真正让人倒吸一口冷气的是模板背后的全栈能力链——

身份验证？勾选即配。

数据库？选型即建。

前端界面？描述即生成。

部署上线？一键搞定。

Claude Projects

这不是「AI辅助编程」。这是「AI替代编程」，连蒸馏你的Skill都不用了。

理解这句话的分量，需要看清当下AI编程工具的格局分层。

Cursor的逻辑是「让你在IDE里写得更快」——它优化的是编码速度，程序员仍然是主角。
Replit的逻辑是「让不会写代码的人也能写」——它降低的是入门门槛，但你仍然需要理解代码逻辑。
Vercel的逻辑是「让部署变得无感」——它解决的是最后一公里，但前面的路你得自己走。

它们各自切了软件开发链条上的一个环节，各自做到了极致。

但Claude想做的事，跟它们完全不在一个维度上。

Cursor让程序员快了10倍，Replit让非程序员也能写代码——但Claude想让「写代码」这件事本身变得多余。

前者是效率革命，后者是品类消灭。

据泄露信息，支撑这套系统运转的底层引擎正是Opus 4.6——那个被全网嘲笑「降智」的模型。

Mythos「不够强」可能是故意的？

最核心、也最具争议性的判断可能是——

Anthropic可能根本不在乎Mythos在排行榜上排第几。

听起来像是替失败者找借口？让我们算一笔账。

当你的战略终局是成为「全栈应用平台」，模型层扮演的角色就发生了根本性的变化。

它不再需要是「最聪明的」，它只需要是「够用的」。

平台竞争的胜负手从来不在于底层引擎的马力有多大，而在于上层生态的粘性有多深。

Windows打赢Mac靠的不是操作系统更优雅，是软件生态更丰富。Android碾压Windows Phone靠的不是内核更先进，是开发者更多。

在平台战争中，「最好」从来不是赢的原因，「最多人用」才是。

在公开场合，Dario Amodei反复说过一句话：「编码将死。」

但全栈构建器的泄露，让这句话第一次有了产品级的实体证据。

Dario说的不是预言。他说的是正在执行的路线图。

如果这个推理成立，那么Mythos在HLE上领先GPT-5.4 Pro（无工具56.8 vs 42.7），但在GPQA上被追平（94.4 vs 94.5）、在BrowseComp上被反超（89.3 vs 86.9）——这些数据的含义就完全不同了。

Claude Projects

它不是「Anthropic输了」，而是「Anthropic选择性地不在这里发力了」。

把有限的算力资源投入到排行榜军备竞赛中去维护一个虚幻的「第一名」标签，还是把算力倾斜给全栈构建器这种能直接创造商业价值的产品？

对一家年收入300亿美金、需要向投资人证明商业化能力的公司来说，这个选择并不难。

模型够用就行，平台锁定才是护城河。

商业竞争的残酷真相就是：用户不关心你的GPQA分数是94.4还是94.5，用户关心的是「我说一句话，App能不能跑起来」。

年收300亿之后的恐惧

Anthropic的年化收入刚刚突破300亿美金，超过了OpenAI。

Claude Projects

15个月内，Anthropic年化收入从10亿美元涨到300亿美元

这是一个足以让任何创业公司开香槟的数字。

但如果你是Dario Amodei，你此刻最大的情绪不是庆祝，而是恐惧。

因为这300亿里的绝大部分，来自API调用。而API，本质上是一种极度危险的商业模式。

为什么？因为API意味着你的客户正在用你的能力，建造他们自己的产品。

今天他们调用Claude的接口做了一个AI客服平台，明天做了一个AI写作工具，后天做了一个AI编程助手。

每一个成功的客户，都在你的地基上盖起自己的大楼。听起来很美——直到有一天，另一家模型公司提供了更便宜、差不多好用的API，你的客户会在一夜之间集体迁移。

这就是「模型商品化」的噩梦：当模型层的差异越来越小，API定价就变成了一场没有赢家的价格战。

OpenAI感受到了这种恐惧，所以它疯狂做C端产品——ChatGPT、GPTs、自定义助手。谷歌感受到了这种恐惧，所以它把Gemini塞进了搜索、邮箱、文档等每一个自家产品。

它们都在做同一件事：在模型变成白菜价之前，把自己变成一个用户离不开的平台。

Anthropic的全栈构建器，是同一逻辑的最激进版本。

它的潜台词是：

与其等别人用我的API在上面建一个平台，然后等模型降价的那天把我一脚踢开——不如我自己先把平台建了。

你不用调我的API了，你直接在我的平台上造App吧。你的用户数据在我这里，你的工作流在我这里，你的部署环境在我这里。到那时候，你想换模型？可以，但你的整个业务都得重来。

这不是产品创新，这是生存本能。

300亿的营收证明了Anthropic有能力赚钱，但泄露图暴露了Anthropic真正的焦虑——光会赚钱不够，得让别人离不开你。

收尾：星空与幻象

让我们从商业叙事中退后一步，回到技术判断的原点。

当前最强的大模型——无论Claude、GPT还是Gemini——大约处在70%的能力水位。这个数字在过去半年里的爬升速度，已经肉眼可见地放缓了。

从70%迈向100%，靠的不是刷榜，不是多拿几个百分点的GPQA分数。靠的是成为一种不可替代的基础设施——像电网一样，你不关心发电厂用的是什么涡轮机，你只知道灯一拉就亮，空调一开就凉。

Anthropic的全栈构建器，第一次让人看到了一家AI公司在认真思考这条「基础设施化」的路。

不再执着于「我的模型比你聪明0.1分」的虚荣战争，而是直接回答一个更本质的问题：怎么让十亿人在不知不觉中，每天都在用我的东西？

因为真正决定AI终局的，从来不是谁的考试分数更高。而是谁先变成了那张所有人都离不开的电网。

参考资料：

https://x.com/cryptopunk7213/status/2043405326196867127

https://x.com/iruletheworldmo/status/2043332977136975994

https://x.com/marmaduke091/status/2043382991901147158

本文来自微信公众号“新智元”，编辑：KingHZ

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:Claude Projects Opus 4.6 Anthropic

24H热门新闻

暂无内容

7x24H 快讯

4分钟前

数据：今日加密货币市值前 100 代币涨跌，Hyperliquid 涨 19.58%，MemeCore 跌 18.39%

7分钟前

AI 创企 Hark 以 60 亿美元估值完成 7 亿美元 A 轮融资，Parkway Venture Capital 领投

12分钟前

「BTC OG内幕巨鲸」将最后3000万美元存入Hyperliquid

19分钟前

古尔斯比：美联储面临严重通胀问题，就业市场稳定

21分钟前

Ansem：Hyperliquid当前与SOL在2023年20美元时相当

21分钟前

白宫推迟人工智能行政令签署仪式

25分钟前

数据：今日美国比特币 ETF 净流出 942 枚 BTC，以太坊 ETF 净流出 15222 枚 ETH

35分钟前

TownSquare 完成 Pre-A 轮融资，总融资达 1625 万美元

Claude降智，是自杀还是装死？

泄露图里藏着什么？

Mythos「不够强」可能是故意的？

年收300亿之后的恐惧

收尾：星空与幻象

推广

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

账号密码登录

修改昵称

Claude降智，是自杀还是装死？

泄露图里藏着什么？

Mythos「不够强」可能是故意的？

年收300亿之后的恐惧

收尾：星空与幻象

推广

相关新闻

关注

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

商务合作