扫描下载APP
其它方式登录
Meta FAIR提出SOAR新架构,利用含大量错误答案但逻辑结构合理的合成题目训练AI模型,在MATH和HARP的Fail@128极难题集上实现推理能力突破;该方法通过教师-学生双层博弈与‘有根奖励’机制,摆脱对高质量人工数据依赖,挑战DeepSeek暴力采样和OpenAI数据洁癖范式,为AI自我演进提供新路径。