24

06

星期三

16:51

观点:API蒸馏仅为RL垫脚石,GLM 5.2自主迭代可彻底摆脱美国模型依赖

据动察 Beating 监测,谷歌 TPU 软件工程师 Patrick Toulme 指出,外界对 GLM 5.2 靠蒸馏追平 Opus 的说法存在误解。大模型在智能体编码任务上的训练难点在于「零梯度困境」,即模型早期若无法产生正确运行路径,强化学习便无法获得梯度信号来启动参数更新。蒸馏 Claude 或 GPT-5.5 的作用,仅仅是在冷启动阶段提供种子解答以绕过零梯度困境。 一旦模型跨过冷启动门槛,后续的性能爬升将不再依赖蒸馏,而是完全依靠强化学习的爬山算法进行自我演化。Toulme 强调,GLM 5.2 已经具备独立产生成功路径的能力,完全可以通过强化学习自主迭代到更高级别,彻底摆脱对美国大模型的依赖。 Redis 创始人 Salvatore Sanfilippo 补充了另一条路径的可能性:虽然通过高能力模型引入推理模式(蒸馏)对于获取更好的 RL 信号非常有用,但 DeepSeek R0 的实践已经证明,即使在完全没有蒸馏播种的纯冷启动情况下,强化学习依然可以自主运转并取得突破。 同时他认为,若仍需越过冷启动门槛,大模型研发完全可以初步使用 DeepSeek-v3.2 等本土开源模型进行微调,而非必须依赖美国 API。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。