26

06

星期五

17:41

Sakana Fugu与Fable 5跑分对比遭质疑,测试脚手架差异可致10-20分偏差

据动察 Beating 监测,日本 AI 初创公司 Sakana AI 研发的多智能体协同系统 Fugu Ultra 宣称在科学推理与编程等多项基准测试中击败 Anthropic 旗舰模型 Fable 5,但跑分结论遭到社区普遍质疑。 批评指出,在非统一考场下对比自测数据并不客观。测试跑分高度依赖于运行脚手架(Scaffold/Harness),不同脚手架带来的跑分偏差可达 10 到 20 分,这使得所谓的「超越」在很大程度上只是系统工程调优的产物,而非底层模型能力的跨代超越。 独立的评测数据表明,围绕大模型构建的智能体运行脚手架对最终得分影响巨大。在同一个 Claude Opus 4.5 模型下,仅更换三款不同的开源脚手架,在 SWE-bench Pro 基准测试中的修复率就会出现 50.2% 至 55.4% 的波动。第三方测试机构 Scale AI 的分析进一步证实,提示词模板、尝试次数上限、上下文留存管理以及工具调用集成等运行策略,足以导致同一组模型权重产生 10 到 20 分的跑分偏差。 由于 Sakana AI 和 Anthropic 公布的数据均基于各自专为自家系统调优的闭源脚手架(Vendor Scaffold),而未在标准化的独立第三方环境(如 Scale SEAL)下进行统一测试,数据并不能真实反映出两款模型底层能力的强弱。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。