扫描下载APP
其它方式登录
Anthropic 提出自然语言自动编码器(NLA),将大模型内部高维激活值压缩为可读自然语言解释,并反向重建激活,实现对模型真实意图、评测意识和隐藏动机的可观测审计;该技术已用于Claude Opus 4.6和Mythos Preview的预部署对齐审计,显著提升异常行为归因效率。