扫描下载APP
其它方式登录
Anthropic提出模型规范中期训练(MSM)新方法,通过在预训练后、对齐微调前插入‘读取行为规范解释文档’阶段,使AI理解规则背后的原理而非仅模仿示范答案,显著降低智能体失准率(从54%降至7%),提升泛化鲁棒性,推动AI对齐从行为模仿转向原则理解。