16

06月

星期二

20:07

大模型后训练新发现：用自己生成的数据做「同轨训练」是学生超越导师且不退化的关键

据动察 Beating 监测，大模型后训练中的「同轨采样」（即让模型基于自己实时生成的数据进行训练）是防止模型退化、提高解题能力的关键。在线强化学习（RL）与同轨蒸馏（OPD）之所以优于传统的监督微调（SFT），本质在于它们是让模型根据自己写出的步骤进行优化，而不是去死记硬背外部标准答案。 SFT 强行灌输标准答案，会将修改模型的力道均匀施加在每个词上，极易破坏模型原有的知识结构并引发遗忘。相反，RL 和 OPD 让模型在自己写的草稿中寻找并强化最佳步骤。这不仅能避免「开头写错一个词，后面一路走偏」的累积误差，且更新只发生在模型已知的知识区域内，从而最大限度保留原生能力。在「最小代码编辑」实验中，无论使用 SFT 还是 RL 导师进行同轨蒸馏，学生模型一次性写对代码的成功率（Pass@1）分别达 80.0% 和 78.7%，均超越了导师模型。即使 SFT 导师因过度微调严重「变傻」（在 LiveCodeBench 代码能力测试中从 0.320 跌至 0.286），其带出来的学生模型依然拿到 0.297 的高分，几乎未受导师缺陷拖累，证明同轨练习能有效过滤导师的坏习惯。目前，DeepSeek-V4 与 GLM-5 已引入同轨蒸馏来合并专家模型能力。在专家训练中，代码和数学等有明确对错的领域更适合 RL，而创意和知识类主观任务更适合同轨蒸馏。未来的终极微调算法，势必要在同轨训练框架下，寻找兼具蒸馏高效率（高信息密度）与 RL 客观性（无偏更新）的新机制。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

2分钟前

Serenity：AI影响堪比工业革命，资本支出尚未出现明确拐点信号

2分钟前

连恩，欧洲央行加息是简单明了的决定

4分钟前

高乐股份：签署35.57亿元算力服务合同

5分钟前

以色列曾要求查看美伊谅解备忘录文件，但遭到拒绝

7分钟前

法国将追加投资用于发展人工智能

8分钟前

Sui 其网络支持符合 MiCA、FATF 和 Basel 等监管框架的机构级跨境支付

11分钟前

Polymarket与Kalshi宣布世界杯期间将加强反欺诈措施

14分钟前

美股AMKOR盘前拉升，涨超6%

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容