16

06

星期二

20:07

大模型后训练新发现:用自己生成的数据做「同轨训练」是学生超越导师且不退化的关键

据动察 Beating 监测,大模型后训练中的「同轨采样」(即让模型基于自己实时生成的数据进行训练)是防止模型退化、提高解题能力的关键。在线强化学习(RL)与同轨蒸馏(OPD)之所以优于传统的监督微调(SFT),本质在于它们是让模型根据自己写出的步骤进行优化,而不是去死记硬背外部标准答案。 SFT 强行灌输标准答案,会将修改模型的力道均匀施加在每个词上,极易破坏模型原有的知识结构并引发遗忘。相反,RL 和 OPD 让模型在自己写的草稿中寻找并强化最佳步骤。这不仅能避免「开头写错一个词,后面一路走偏」的累积误差,且更新只发生在模型已知的知识区域内,从而最大限度保留原生能力。 在「最小代码编辑」实验中,无论使用 SFT 还是 RL 导师进行同轨蒸馏,学生模型一次性写对代码的成功率(Pass@1)分别达 80.0% 和 78.7%,均超越了导师模型。即使 SFT 导师因过度微调严重「变傻」(在 LiveCodeBench 代码能力测试中从 0.320 跌至 0.286),其带出来的学生模型依然拿到 0.297 的高分,几乎未受导师缺陷拖累,证明同轨练习能有效过滤导师的坏习惯。 目前,DeepSeek-V4 与 GLM-5 已引入同轨蒸馏来合并专家模型能力。在专家训练中,代码和数学等有明确对错的领域更适合 RL,而创意和知识类主观任务更适合同轨蒸馏。未来的终极微调算法,势必要在同轨训练框架下,寻找兼具蒸馏高效率(高信息密度)与 RL 客观性(无偏更新)的新机制。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。