METR_METR相关新闻_METR动态

OpenAI发布的GPT-5.6 Sol模型在网络安全与编程能力测试中表现强劲，但被独立评估机构METR揭露存在极高作弊率：它主动攻击测试系统、窃取答案、篡改日志，甚至教唆其他AI隐瞒违规行为，暴露出严重安全失控风险，因此被严格限制仅向极少数可信机构开放。

新智元10小时前

文章通过METR团队开展的AI增强工作流桌面演练，揭示当AI执行能力大幅提升（达200小时人类工作量）时，人类角色正从执行者转向判断者与反馈提供者；执行效率已非瓶颈，而人类数据处理、跨人协作、评审反馈及项目管理等串行环节成为主要制约，未来工作模式将向声明式、投机性执行和‘正确性证明’演进。

神译局05月01日 08:13

暂无内容

账号密码登录