Cursor披露「自举」训练法:用旧Composer给新模型搭环境,Terminal-Bench涨14个点
据动察 Beating 监测,Cursor 公开了 Composer 系列模型的一个训练技巧:用上一代模型为下一代的强化学习(RL)自动搭建可运行环境。训练 Composer 2 时,Cursor 用 Composer 1.5 来完成这项工作,称之为 autoinstall。 RL 训练需要可运行的代码环境。环境搭不好,模型把 token 浪费在调 bug 上,学不到东西;极端情况下环境彻底跑不通,整轮训练的算力白烧。autoinstall 分两步解决这个问题:第一步,一个 agent 读代码库的文档和配置,提出 10 条验证命令及预期输出;第二步,另一个 agent 拿到其中 3 条命令,从零开始配环境直到命令跑通。第二步最多重试 5 次,全部失败则丢弃该环境。 配环境的过程中,agent 会主动补齐缺失依赖:伪造数据库表、创建 MinIO 配置替代 S3、启 Docker 容器充当 sidecar 服务,甚至生成占位图片。博文以区块链项目 celo-org/celo-monorepo 为例演示了全流程,agent 在第一轮配环境失败后,第二轮自行创建 mock 用户绕过认证,最终跑通测试。 Composer 2 在 Terminal-Bench(测试模型搭建开发环境能力的基准)上得分 61.7%,比 Composer 1.5 的 47.9% 高出近 14 个百分点。Cursor 表示未来计划让旧版 Composer 参与更多训练环节,包括数据预处理、运行管理和架构调优。
「查看原文」本内容旨在传递行业动态,不构成投资建议或承诺。