全网都在聊的Loop Engineering，到底改变了什么？

律动BlockBeats2026-06-25热度: 5579

Loop Engineering 是 AI 编程新阶段的核心方法，强调构建可持续运转的自动化循环系统，涵盖任务发现、上下文组装、独立验证、状态持久化与调度重启五个环节；其本质不是提升代码生成能力，而是重构软件开发中人类判断、验证机制与流程约束的重心，Stripe 每周合并 1300 个 AI PR 等案例凸显可靠性源于系统性约束而非模型本身。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

原文标题：全网都在聊的Loop Engineering，到底改变了什么？

原文作者：律动BlockBeats

原文来源：https://www.theblockbeats.info/news/62866

转载：火星财经

近日，一位 Anthropic 工程师发布了一份关于「智能体系统的循环工程」的 11 页资料，把 Loop Engineering 放在 Prompt Engineering、Context Engineering 和 Harness Engineering 之后，视为 AI 编程进入下一阶段的关键方法。

这份资料之所以引发关注，是因为它刚好踩中了 2026 年 6 月 AI 编程讨论的转折点。Addy Osmani、Boris Cherny 和 Peter Steinberger 几乎在同一周把 AI 编程的新阶段称为 Loop Engineering，而 Stripe 的 Minions 管道已经用类似思路每周合并 1300 多个 AI 生成 Pull Request。

这个数字之所以重要，不是因为 AI 又多写了几行代码，而是因为软件开发的重心正在从「人类告诉模型写什么」，转向「人类设计一个会自己排队、取任务、写代码、检查结果、保存状态并继续运行的系统」。

过去一年，AI 编程工具的叙事大多围绕模型能力：代码补全更准、上下文窗口更长、代理能一次性完成更复杂任务。但 Loop Engineering 讨论的是另一件事：当生成代码本身越来越便宜，工程师真正要设计的，变成一个可持续运转的循环。机器可以不断产出候选方案，人类要决定哪些结果可信、哪些必须挡下、哪些长期成本正在被隐藏。

Loop Engineering

近日，一位 Anthropic 工程师发布了一份关于「智能体系统的循环工程」的 11 页资料，把 Loop Engineering 放在 Prompt Engineering、Context Engineering 和 Harness Engineering 之后，视为 AI 编程进入下一阶段的关键方法。这篇文章正是以这份资料为切口，结合 Boris Cherny、Addy Osmani 等人的公开讨论，以及 Stripe Minions 每周合并 1300 多个 AI 生成 PR 的案例，解释 Loop Engineering 到底是什么、为什么突然被全网讨论，以及它真正改变的不是写代码，而是软件开发中的验证、调度和判断。

AI 编程从「一次提示」走向「持续循环」

Loop Engineering 被放在 Prompt Engineering、Context Engineering 和 Harness Engineering 之后，作为 AI 工程栈的第四层。

Prompt Engineering 解决的是「怎么问」；Context Engineering 解决的是「给模型看什么」；Harness Engineering 解决的是「如何把一次模型运行接入工具、测试和工作流」。Loop Engineering 往前多走一步：系统不只执行一次任务，而是能在固定时间或触发条件下重新启动，把上一次结果作为下一轮输入。

一个完整循环通常包含五个动作。

第一步是发现工作，例如扫描 CI 失败、开放 Issue、代码提交或待处理任务；第二步是任务交接，把任务整理成模型可以处理的上下文；第三步是独立验证，检查模型产出的代码是否真的运行、是否通过测试、是否引入副作用；第四步是结果持久化，把状态、判断和未完成事项写入文件或系统；第五步是调度循环，让下一轮在合适时间继续运行。

这里最关键的并不是「生成」，而是「验证」。如果一个循环只是不断让模型写代码、再让同一个模型夸自己的结果，它很容易变成「点头循环」：每一轮都看似前进，实际只是把错误包装得更完整。

Osmani 自己的晨间 triage 循环是一个个人版例子：系统每天自动读取前一天的 CI 失败测试、开放 Issue 和最近提交，生成状态文件，把无法处理的事项放进人工收件箱。它的价值不是替工程师做所有决定，而是在工程师醒来之前完成初筛，把注意力留给真正需要判断的部分。

Stripe 的 1300 个 PR：可靠性来自约束，不是模型

Stripe 的 Minions 管道是这轮讨论中最具冲击力的企业案例：每周合并超过 1300 个 AI 生成 Pull Request，且代码本身没有人工逐行编写。

但这并不等于 Stripe 把生产系统交给一个大模型自由发挥。相反，Minions 的关键在于高度受控的流程：确定性编排器先组装上下文，从 Jira、代码搜索和内部工具中提取任务信息；LLM 负责生成代码；之后通过硬编码 linter、提交门控和最终人工审查决定能否合并。

换句话说，可靠性不是来自「模型突然足够聪明」，而是来自一连串约束。模型负责提出候选改动，系统负责限制它能碰什么、必须通过哪些检查，人类负责最后判断是否进入主干。

Loop Engineering

这也是 Loop Engineering 与普通 AI 编程脚本的差别。普通脚本往往把重点放在「让模型完成任务」；循环系统必须考虑任务从哪里来、失败后如何处理、状态如何保留、预算如何控制、谁来阻止错误进入生产环境。

如果没有这些约束，每周 1300 个 PR 不是效率跃升，而可能是技术债务制造机。

生成器和评估器必须分开

Loop Engineering 的一个核心设计，是把生成器和评估器分开。

生成器负责写代码、改文件、提交候选结果。评估器负责挑错，而且最好默认假设代码有问题。两者不能由同一个「乐观代理」完成，因为模型在自我评分时往往倾向于认可自己的输出，尤其是在任务描述模糊、测试覆盖不足或上下文不完整时。

独立评估器可以更简单、更怀疑，也更容易调优。它不需要创造性地解决问题，只需要验证页面能不能打开、测试能不能通过、边界条件有没有破、代码是否符合既定规则。有些实践会让评估器通过浏览器自动化工具实际点击页面，而不是只读代码后给出判断。

这解释了为什么「验证」是五步循环中最难的一环。代码生成已经越来越便宜，但证明一段代码真的正确，仍然昂贵。尤其是在大型代码库中，错误不一定马上暴露，测试也不一定覆盖真实业务路径。循环跑得越快，未被验证的假设累积得也越快。

隐性成本会互相强化

Loop Engineering 的风险不在于它会不会写错代码，而在于它可能让团队更难发现自己已经失去理解。

第一类成本是验证债务。没有被测试覆盖的错误会在循环中不断累积，直到某次合并或上线才集中爆发。第二类是理解力衰退。代码库持续膨胀，但工程师没有亲手经历关键设计选择，心智地图停留在旧版本。第三类是认知投降。人类开始默认接受机器输出，只做形式上的批准。第四类是 token 消耗爆炸。重试、子代理、长上下文和多轮验证会让账单迅速上升。

这四项成本会彼此喂养：测试不够导致验证债务，验证债务增加后工程师更不愿深入理解，理解下降又让人工审查变成橡皮图章，橡皮图章式审查再推动更多自动重试和更高成本。

Loop Engineering