03

07月

星期五

18:20

报告：固定算力掩盖了AI真实能力，前沿智能体进化速度被低估60%

据动察 Beating 监测，英国 AI 安全研究所指出，当前主流的 AI 智能体测试存在重大盲区，固定算力上限的评估方法严重低估了模型的真实能力与迭代速度。研究团队测试了多款前沿大模型在网络安全、软件工程和数学等基准中的表现。测试结果显示，智能体的表现并不是一个固定得分，而是一条随着测试时算力（Test-time compute）增加而持续爬升的曲线。在网络攻防测试中，当算力预算从 250 万 tokens 提升至 5000 万 tokens 时，最前沿智能体可攻克任务的复杂度上限（折合人类工时）从 2 小时飙升至 14 小时。许多在低算力下失败的尝试，只要给予充足算力允许智能体探索和纠错，就能最终完成任务。新模型对测试时算力的利用效率显著高于旧模型。在充足预算下评估，测得的前沿能力演进趋势（拟合曲线斜率）比低算力测试要陡峭约 60%，证明传统评估严重低估了 AI 真实的迭代速度。但这种算力红利存在边界，在缺乏即时反馈的医疗等领域，增加算力并不能提升智能体的表现。随着推理成本下降，低预算评估可能会让决策者低估 AI 智能体在实际应用中的风险。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

2分钟前

ETF 创纪录流出之际巨鲸狂扫 27 万枚 BTC，比特币现结构性分化信号

3分钟前

Serenity：英伟达是ASIC市场「造王者」，迈威尔等公司正逐步侵蚀博通份额

7分钟前

交通运输部：深入实施“人工智能+交通运输”行动

16分钟前

瑞银再次上调存储芯片价格预测，称DRAM短缺预计将持续到2028年

18分钟前

生数科技发布实时交互新模型 Vidu S1

23分钟前

匿名持币者向纽约法院申请驳回沉睡比特币钱包所有权诉讼

28分钟前

分析：美国就业数据走弱缓解加息担忧，比特币现货ETF买盘回归等利好推动比特币反弹

29分钟前

波场 TRON Nile 测试网正式开启后量子签名功能，FN_DSA_512 率先启用

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容