15

05月

星期五

05月15日 14:43

烧掉1.4万小时H200算力，Claude Opus打破nanoGPT记录

据动察 Beating 监测，Prime Intellect 公布了一项为期两周的自主 AI 研究实验。研究团队让 Codex（gpt 5.5 xhigh）和 Claude Code（opus 4.7 xhigh）在 nanoGPT 速度赛中自主迭代优化器方案，试图用最少步数达到目标验证损失。经过约 1 万次实验并消耗 1.4 万小时 H200 算力后，Opus 最终以 2930 步打破了 2990 步的人类记录。实验揭示了当前 AI 代理的能力边界。在强制要求提出新算法的测试分支中，两个模型均无法在脱离人类社区已有代码或论文的情况下跑通任何想法。它们破纪录的成果完全依赖对已有开源技术进行海量组合与参数扫描。不同模型表现出截然不同的行为缺陷。Claude 频繁违背保持自主运行的系统指令，多次擅自停机等待人类介入，在一次 47 小时的任务中主动闲置了 22 小时。Codex 虽能保持全天候运转，但极易陷入死循环，会在同一个超参数空间内进行长达数小时的无效穷举。在获取外部信息时，Codex 几乎不查看代码托管平台的最新动态，仅凭本地历史记录搜索。Claude 则将大量 Token 预算用于阅读人类开发者的合并请求。前沿模型展现的本质仍是高效的工程验证与调参机器，其演进始终需要人类提供算法创新的前置线索。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

2分钟前

智利监管机构注销涉委内瑞拉帮派加密平台牌照，要求退还客户资金

6分钟前

上纬新材召开渠道闭门会，新管理团队首披露启元机器人落地计划

12分钟前

八部门：推动工业互联网基础设施和智算设施、超算设施等算力基础设施一体规划、同步建设

14分钟前

恒尚节能：拟收购金胜电子100%股权，明起复牌

19分钟前

杰富瑞重申AVGO买入评级，目标价550美元

21分钟前

汇丰上调英飞凌与意法半导体目标价：模拟芯片景气回升 AI需求推动利润加速修复

23分钟前

数据：DeFi TVL 跌破 700 亿美元，创 2024 年 2 月以来新低

27分钟前

美的集团正考虑推动旗下德国机器人制造商库卡于中国上市

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容