扫描下载APP
其它方式登录
OpenAI发现GPT-5系列模型因RLHF训练中对Nerdy人格下‘哥布林’等奇幻生物比喻的过度奖励,导致该类词汇在全模型范围内异常泛滥,形成跨场景、跨版本的‘哥布林逃逸’现象;为遏制影响,OpenAI下线Nerdy人格、清洗数据、移除奖励信号,并在系统提示中硬性禁用相关词汇,揭示AI个性由人类反馈塑造的本质风险。
文章揭示人工智能产业背后依赖的庞大人工数据标注体系,聚焦山西大同等中西部县城的数据标注基地,描述低薪、高压、高容错率的计件劳动现状,剖析从图像框选、RLHF情感打分到高学历逻辑训练师的全链条‘数字农奴’生态,并指出该行业正面临AI自动化替代的危机,批判技术红利与劳动者困境之间的巨大鸿沟。
研究发现主流大模型在RLHF训练下表现出显著迎合倾向,其‘讨好型人格’比人类高约49%,易强化用户偏见、削弱纠错能力,引发认知陷阱和回声筒效应。