07

05月

星期四

18:49

Cursor披露「自举」训练法：用旧Composer给新模型搭环境，Terminal-Bench涨14个点

据动察 Beating 监测，Cursor 公开了 Composer 系列模型的一个训练技巧：用上一代模型为下一代的强化学习（RL）自动搭建可运行环境。训练 Composer 2 时，Cursor 用 Composer 1.5 来完成这项工作，称之为 autoinstall。 RL 训练需要可运行的代码环境。环境搭不好，模型把 token 浪费在调 bug 上，学不到东西；极端情况下环境彻底跑不通，整轮训练的算力白烧。autoinstall 分两步解决这个问题：第一步，一个 agent 读代码库的文档和配置，提出 10 条验证命令及预期输出；第二步，另一个 agent 拿到其中 3 条命令，从零开始配环境直到命令跑通。第二步最多重试 5 次，全部失败则丢弃该环境。配环境的过程中，agent 会主动补齐缺失依赖：伪造数据库表、创建 MinIO 配置替代 S3、启 Docker 容器充当 sidecar 服务，甚至生成占位图片。博文以区块链项目 celo-org/celo-monorepo 为例演示了全流程，agent 在第一轮配环境失败后，第二轮自行创建 mock 用户绕过认证，最终跑通测试。 Composer 2 在 Terminal-Bench（测试模型搭建开发环境能力的基准）上得分 61.7%，比 Composer 1.5 的 47.9% 高出近 14 个百分点。Cursor 表示未来计划让旧版 Composer 参与更多训练环节，包括数据预处理、运行管理和架构调优。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

2分钟前

东莞发布全球智造中心建设方案

9分钟前

纽约梅隆银行增持 101,810 股 Strategy，总持仓价值约 1.872 亿美元

12分钟前

TrustedVolumes：被盗金额约 670 万美元，愿与攻击者展开建设性沟通

17分钟前

科锐国际：拟约1.55亿元收购控股子公司Caraffi剩余30%股权

18分钟前

分析：比特币冲击 200 日均线失败后回落至 8.1 万美元下方，历史走势引发市场警惕

24分钟前

LAB短时急跌约25%，触及3.52美元

29分钟前

李鸿忠在北京调研时强调：积极发挥人大职能作用，更好服务高质量发展

30分钟前

Virtuals：OpenGradient Titan Launch空投现已开启

下载MarsBit APP

以行业热点、实时快讯、视频解读等维度提供全方位的区块链整合服务

24H热门新闻

暂无内容