26

06月

星期五

17:41

Sakana Fugu与Fable 5跑分对比遭质疑，测试脚手架差异可致10-20分偏差

据动察 Beating 监测，日本 AI 初创公司 Sakana AI 研发的多智能体协同系统 Fugu Ultra 宣称在科学推理与编程等多项基准测试中击败 Anthropic 旗舰模型 Fable 5，但跑分结论遭到社区普遍质疑。批评指出，在非统一考场下对比自测数据并不客观。测试跑分高度依赖于运行脚手架（Scaffold/Harness），不同脚手架带来的跑分偏差可达 10 到 20 分，这使得所谓的「超越」在很大程度上只是系统工程调优的产物，而非底层模型能力的跨代超越。独立的评测数据表明，围绕大模型构建的智能体运行脚手架对最终得分影响巨大。在同一个 Claude Opus 4.5 模型下，仅更换三款不同的开源脚手架，在 SWE-bench Pro 基准测试中的修复率就会出现 50.2% 至 55.4% 的波动。第三方测试机构 Scale AI 的分析进一步证实，提示词模板、尝试次数上限、上下文留存管理以及工具调用集成等运行策略，足以导致同一组模型权重产生 10 到 20 分的跑分偏差。由于 Sakana AI 和 Anthropic 公布的数据均基于各自专为自家系统调优的闭源脚手架（Vendor Scaffold），而未在标准化的独立第三方环境（如 Scale SEAL）下进行统一测试，数据并不能真实反映出两款模型底层能力的强弱。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

2分钟前

深圳麦格米特电气股份有限公司向港交所提交上市申请书

3分钟前

2025年至今我国已经研制发布40余项人工智能国家标准

8分钟前

陕鼓动力：筹划发行股份收购秦风气体36.06%股权，股票停牌

8分钟前

更多经济学家预测美联储将加息而非降息

8分钟前

美联储将维持利率在 3.5% 至 3.75% 直至 2027 年底

8分钟前

火币HTX将于今日21时联合首发上线CAP (Cap)

8分钟前

AvoDex 宣布 Genesis NFT 持有者解锁功能已上线，并将于 7 月 1 日开启 TGE

25分钟前

Base主网升级推迟至明日2时，注册表上线后方可部署B20代币

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容