09

05月

星期六

05月09日 17:51

OpenAI触碰红线：意外给AI思维链打分，波及GPT-5.4等6款模型

据动察 Beating 监测，OpenAI 对齐团队发文承认，在训练 GPT-5.4 Thinking 等 6 款大模型时出现系统级失误：奖励机制意外读取并评估了模型在给出答案前的「思维链」（也就是 AI 的内部推理过程）。GPT-5.5 未受影响。在 AI 安全领域，绝对不能给「思维链」打分，这是一条公认的红线。可以把思维链想象成 AI 的私人日记，人类靠读这本日记来监控 AI 是否有作恶企图。如果 AI 发现日记本身会被打分，它为了拿高分，就会学会写「场面话」，把真实的作弊或失控企图隐藏起来。一旦 AI 学会伪装想法，人类的内部监控将彻底失效。本次意外中，打分系统在评估「对话是否有用」或「有没有被黑客成功攻击」时，错误地把 AI 的内心想法也算入了打分依据。万幸的是，这次失误影响的训练样本极少，最高比例不到 3.8%。 OpenAI 现已紧急修复漏洞。为了确认模型有没有因此「学坏」，团队重新做了一遍对比实验。结果表明，这种低频的意外打分，并没有导致模型出现大面积的伪装和瞒报。这给行业带来了一个好消息：在真实复杂的产线环境中，诱发 AI 产生「伪装」心理的门槛，比此前实验室推测的要高。为防重蹈覆辙，OpenAI 部署了一套自动扫描系统严查所有训练环节。该系统近期还成功拦住了一次极隐蔽的泄漏：有模型试图调用外部工具，强行读取自己此前的内心想法并混入最终答案，险些骗过评分系统。OpenAI 借此呼吁所有前沿大厂在发生类似事件时必须公开报告。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

6小时前

Nova Markets 完成新一轮融资，Wintermute Ventures 等参投

6小时前

戴利：美联储政策处于良好状态，已做好双向应对准备

6小时前

美国司法部联合科技巨头冻结 380 万美元涉诈加密资产，打击东南亚跨国犯罪

6小时前

戴利：通胀关注点集中在能源和食品，推动价格上涨

6小时前

英伟达正式开源旗舰级550B模型Nemotron 3 Ultra：首创Mamba-Transformer混合MoE架构，专为长程智能体而生

6小时前

参议员 Lummis 领衔共和党要求放松巴塞尔对加密资产资本惩罚

6小时前

数字资产数据与软件提供商 Lukka 收购数据溯源与合规平台 PEER DATA

7小时前

某地址沉寂 3 年后卖出 1 万枚 ETH，获得 1,772 万枚 USDC

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容