03

07

星期五

18:20

报告:固定算力掩盖了AI真实能力,前沿智能体进化速度被低估60%

据动察 Beating 监测,英国 AI 安全研究所指出,当前主流的 AI 智能体测试存在重大盲区,固定算力上限的评估方法严重低估了模型的真实能力与迭代速度。 研究团队测试了多款前沿大模型在网络安全、软件工程和数学等基准中的表现。测试结果显示,智能体的表现并不是一个固定得分,而是一条随着测试时算力(Test-time compute)增加而持续爬升的曲线。在网络攻防测试中,当算力预算从 250 万 tokens 提升至 5000 万 tokens 时,最前沿智能体可攻克任务的复杂度上限(折合人类工时)从 2 小时飙升至 14 小时。许多在低算力下失败的尝试,只要给予充足算力允许智能体探索和纠错,就能最终完成任务。 新模型对测试时算力的利用效率显著高于旧模型。在充足预算下评估,测得的前沿能力演进趋势(拟合曲线斜率)比低算力测试要陡峭约 60%,证明传统评估严重低估了 AI 真实的迭代速度。但这种算力红利存在边界,在缺乏即时反馈的医疗等领域,增加算力并不能提升智能体的表现。 随着推理成本下降,低预算评估可能会让决策者低估 AI 智能体在实际应用中的风险。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。