Claude Opus 4.7来了,公开模型里的SOTA,不过用起来GPT味好浓

量子位热度: 4835

Anthropic发布Claude Opus 4.7,作为当前公开可用最强模型,在高级软件工程、视觉理解、指令遵循与推理、Agent能力四大方向显著升级;虽在网络安全能力上主动降级以强化安全防护,但保持与Opus 4.6同价,全平台开放,兼顾性能、可靠性与成本效率。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

用Mythos向外界虚晃一枪后,Anthropic猝不及防把Claude Opus 4.7抬了上来

不少小伙伴都熬夜玩儿疯了!

一骨碌从床上坐起来边冲浪边上手体验,我从Opus 4.7身上总结了一个坏消息和一些好消息。

先说坏消息吧——Opus 4.7身上,怎么看怎么有点故人之姿。

动不动就要“稳稳接住”我。

不少网友也反馈,怎么说是升级,但Opus 4.7越用越像GPT???

如果是真的,这可不是什么好事情(无奈闭眼.jpg)。

相比坏消息只有一个,好消息那是有一箩筐。

在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面,都比前作更好。但Agentic search等几个单项能力上有所下降。

Anthropic还很臭屁地表示:

Opus 4.7是我们家目前最强大的公开可用模型。不过这不是我们最强大的模型哟~~

看来最强大的还是密而不发的Mythos。

看看上面的表格,Mythos在那些测试上的整体表现,均优越约10%至15%。

毫无疑问,Mythos Preview是目前Anthropic手里最夯的一张牌,能力拉满,但价格也是Opus 4.7的5倍。

相比之下,Opus 4.7更像是安全体系完成全验证、定价亲民且全平台开放的最强量产版。

但……所谓智者千虑必有一失。

强大的Opus 4.7还是在昨日的阴沟里面翻了船:

Claude Opus 4.7突袭,核心升级四大方向

通览下来,这个公开最强的Opus 4.7,在四个方向上都有突出表现。

高级软件工程领域:值得托付

Opus 4.7最显著的进步在高级软件工程领域。

来看这组数据:

SWE-bench Verified测试达到78.2%;

SWE-bench Multimodal达到72.7%;

Terminal-Bench 2.0拿下68.8%;

Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍;

GitHub 93项任务编码基准也提升了13%。

Cursor的CEO Michael Truell给出了一个关键评价:

在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。

这种提升体现在三个关键特性上。

第一,严格遵循指令。

Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述,而是字面执行。

这意味着以前你写“如果可能的话,尝试优化这段代码”这种提示词,模型可能会选择性忽略。

现在你说“优化这段代码”,它就一定会执行。

这种变化要求用户重新调整提示词策略,软修饰符如“if possible/ideally/try to”的权重变得更高,硬限制需要更明确。

第二,输出前自我验证。

Opus 4.7会在报告结果前devise ways to verify its own outputs,就像一个资深工程师在提交代码前会自己跑一遍测试。

第三,擅长复杂多文件变更、模糊调试、跨服务代码审查。

Notion的AI Lead Sarah Sachs分享了一个数据:

面对复杂多步骤工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具错误只有三分之一。它是第一个通过我们隐性需求测试的模型。

视觉能力:分辨率×3,看见更多细节

在视觉能力方面,Opus 4.7也有很不错的进步。

官方数据显示,长边最大支持2576像素(≈3.75百万像素),是Opus 4.6的3倍以上;XBOW视觉敏锐度达到 98.5%(Opus 4.6仅54.5%)。

实际落地场景几乎全覆盖,能直接识别完整Figma设计稿、1080p终端截图(含灰色小字),精准解析复杂技术架构图、财报图表,在计算机使用(Computer Use)场景中,可清晰读取高密度UI元素,视觉处理能力近乎满分。

换句话说,化学结构解析、复杂技术图表识别、像素级精确的UI元素定位,这些过去需要专门模型的任务,现在可以直接用Opus 4.7一个模搞定。

Figma听了立刻股价大跌,怎一个惨字了得。

指令遵循与推理:更可控,更可靠

Opus 4.7在指令遵循上也有长足进步。

它不再试图猜测用户的真实意图,而是严格按照字面执行。

这次升级的核心优势在于严苛的字面执行,如果用户要求 “不要用 TypeScript” ,模型就坚决不用;用户要求 “输出 JSON” ,得到的输出就一定没有任何额外前缀。

这种变化对老用户来说可能需要适应(同时旧提示词易出现意外结果,需重新校准),但对需要精确控制的场景来说是福音。

在推理方面,100万token长上下文场景表现亮眼,BFS任务得分58.6%*(Opus 4.6成绩为41.2%),复杂推理中逻辑连贯性显著提升。

Agent能力增强:为Agent而生的版本

如果说之前的Claude是为对话而生,Opus 4.7则是为Agent而生。

这体现在几个方面。

首先总体来说,Opus 4.7的核心Agent能力有了全方位提升。

多家AI知名企业拿出了实际使用效果相关数据——Notion多步骤工作流成功率提升14%,工具调用错误率降至1/3;Vending-Bench 2长期经营模拟中,最终余额达10937美元(Opus 4.6剩了8018美元),长周期决策更稳健;Genspark场景下,抗死循环、一致性、错误恢复三大生产级特性拉满。

同时具备文件系统记忆,跨多会话可靠记住关键信息,新任务可减少40%重复上下文输入。

Cognition的CEO Scott Wu的描述更形象:

Opus 4.7在Devin中将长周期自主性提升到新水平。它能连贯工作数小时,突破难题而不是放弃,解锁了我们以前无法可靠运行的一类深度调查工作。

与此同时,Opus 4.7还为开发者提供了许多令人狂喜的Agent相关四件套。

第一,新增xhigh推理等级,作为默认等级介于high与max之间。

这给了开发者更精细的控制权,可以在推理深度和延迟之间找到平衡点,平衡智能与token成本,适配多数编码/Agent任务。

第二,新增自适应思考模式,替代固定预算长思考,模型自主决定思考深度,简单查询快速响应,复杂步骤重点投入。

第三,任务预算(公开beta),开发者可引导token消耗,优化长任务资源分配。

第四,Claude Code新增/ultrareview命令,可创建专属审查会话,标记细微错误与设计问题。

想做一个靠谱的模型:首发防护,记忆增强

Anthropic官方表示,Opus 4.7的网络安全能力不如Mythos Preview。

不过这是他们刻意为之。

这种“自我设限”背后,是Anthropic对AI安全的一贯坚持。

自2021年成立以来,这家公司花了四年时间精心打造自己的声誉,试图对外塑造一个“比OpenAI等竞争对手更注重安全和负责任AI部署”的声誉。

在Mythos Preview引发业界对强大AI模型安全风险的热议之后,Opus 4.7被设计成一道缓冲带。

具体来说,Anthropic在训练中尝试了差异化降低Opus 4.7的网络能力,让模型在面对网络安全相关任务时表现出更谨慎的行为模式。

与此同时,官方发布了自动检测和阻止高风险网络安全请求的防护措施,这些safeguards能够自动识别并拦截表明prohibited或high-risk网络安全用途的请求。

而对于确实有合法网络安全需求的专业人士,Anthropic推出了Cyber Verification Program。

安全专业人员如需将Opus 4.7用于漏洞研究、渗透测试、红队演练等合法目的,可以通过正式渠道申请。

官网还在上线播客的最后写到,如果开发者们想从Opus 4.6迁移到4.7版本,有一些事项需要格外注意。

首先是tokenizer的更新。

Opus 4.7使用了新的分词器,虽然改善了文本处理效率,但相同输入可能映射到更多tokens,大约是1.0到1.35倍之间。

这意味着同样的提示词可能会消耗更多token,需要在成本预算中留出余量。

其次是在更高努力级别下会产生更多输出tokens。

Opus 4.7在high和xhigh级别下的思考深度明显增加,特别是在Agent场景的多轮对话后期。

这种“多思考、更可靠”的行为模式提升了输出质量,但也意味着token消耗会随会话长度增长。

与Opus 4.6同价,有这些注意事项你需要知道

目前,Opus 4.7已实现全平台开放。

除Claude官方途径外,新模型不仅登陆 Claude Pro/Max/Team/Enterprise 全系产品、官方API,还同步上线微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock三大云平台。

其定价与Opus 4.6保持一致:输入5美元每百万tokens,输出25美元每百万tokens。

虽然如前所述,Opus 4.7涉及提示词的重构需求和token使用策略的调整,但Anthropic在自己的内部测试中给出了积极信号。

在一个内部Agent编码评估中,所有effort level下的token使用效率相比Opus 4.6都有改善。

换句话说,虽然单次调用的token数可能增加,但完成任务所需的总token往往更少,因为模型犯错的次数减少了。

大概就像你雇了个时薪更高的资深工程师,但他完成任务的速度更快、返工更少,最终总成本可能更低。

另外,Opus 4.7在后续轮次中会更加谨慎,特别是在Agent场景中。

这意味着更可靠的输出,但也意味着更多的token消耗。

开发者可以通过调整effort参数、设置任务预算或优化提示词来平衡性能与成本。

Anthropic建议,在测试Opus 4.7的编码和Agent用例时,从high或xhigh努力级别开始,根据实际需求逐步调整。

Anyway~

总的来说,实际使用成本会因使用方式的不同而变化,但大多数情况下,能力提升带来的效率增益会抵消token消耗的增加。

对于依赖Claude进行复杂开发工作的团队来说,这很可能是一笔划算的交易。

参考链接:

[1]https://www.anthropic.com/news/claude-opus-4-7

[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html

[3]https://x.com/i/trending/2044560325509316766

本文来自微信公众号“量子位”,作者:衡宇

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。