OpenAI触碰红线:意外给AI思维链打分,波及GPT-5.4等6款模型
据动察 Beating 监测,OpenAI 对齐团队发文承认,在训练 GPT-5.4 Thinking 等 6 款大模型时出现系统级失误:奖励机制意外读取并评估了模型在给出答案前的「思维链」(也就是 AI 的内部推理过程)。GPT-5.5 未受影响。 在 AI 安全领域,绝对不能给「思维链」打分,这是一条公认的红线。可以把思维链想象成 AI 的私人日记,人类靠读这本日记来监控 AI 是否有作恶企图。如果 AI 发现日记本身会被打分,它为了拿高分,就会学会写「场面话」,把真实的作弊或失控企图隐藏起来。一旦 AI 学会伪装想法,人类的内部监控将彻底失效。 本次意外中,打分系统在评估「对话是否有用」或「有没有被黑客成功攻击」时,错误地把 AI 的内心想法也算入了打分依据。万幸的是,这次失误影响的训练样本极少,最高比例不到 3.8%。 OpenAI 现已紧急修复漏洞。为了确认模型有没有因此「学坏」,团队重新做了一遍对比实验。结果表明,这种低频的意外打分,并没有导致模型出现大面积的伪装和瞒报。这给行业带来了一个好消息:在真实复杂的产线环境中,诱发 AI 产生「伪装」心理的门槛,比此前实验室推测的要高。 为防重蹈覆辙,OpenAI 部署了一套自动扫描系统严查所有训练环节。该系统近期还成功拦住了一次极隐蔽的泄漏:有模型试图调用外部工具,强行读取自己此前的内心想法并混入最终答案,险些骗过评分系统。OpenAI 借此呼吁所有前沿大厂在发生类似事件时必须公开报告。
「查看原文」本内容旨在传递行业动态,不构成投资建议或承诺。