AI Agent 输出垃圾？问题在你舍不得烧 Token

深潮TechFlow

媒体专栏

2026-03-23热度: 8380

文章核心论点是AI Agent的输出质量与投入Token数量呈正相关，可通过增加Token提升推理深度、多路径尝试和自我验证来显著改善代码生成等工程任务效果，但无法解决训练数据中不存在的‘新颖性问题’，强调领域专业知识仍不可替代。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

作者：Systematic Long Short

编译：深潮 TechFlow

深潮导读：这篇文章的核心论点只有一句话：AI Agent 输出质量和你投入的 Token 数量成正比。

作者不是在泛泛谈理论，而是给出了两个可以今天就开始用的具体方法，并清楚地划定了 Token 堆不出来的边界——「新颖性问题」。

对正在用 Agent 写代码或跑工作流的读者，信息密度和可操作性都很高。

引言

好吧，你得承认这个标题确实挺吸引眼球——但说真的，这不是玩笑。

2023 年，当我们还在用 LLM 跑生产代码的时候，周围的人都惊掉了下巴，因为当时普遍的认知还是 LLM 只能产出没法用的垃圾。但我们知道一件别人没意识到的事：Agent 的输出质量，是你投入 Token 数量的函数。就这么简单。

你自己跑几个实验就能看出来。让 Agent 完成一个复杂的、有些冷门的编程任务——比如说，从头实现一个带约束条件的凸优化算法。先用最低思考档执行；再切到最高思考档，让它 review 自己的代码，看看能发现多少 bug。中档、高档都试一遍。你会直观地看到：bug 数量随着投入的 Token 量单调递减。

这不难理解，对吧？

Token 越多 = 错误越少。你可以把这个逻辑再推进一步，这基本上就是代码 review 产品背后那个（简化过的）核心思路。换一个全新的上下文，投入海量 Token（比如让它逐行解析代码，判断每一行是否有 bug）——这样基本可以抓出绝大多数、乃至全部的 bug。这个过程可以重复十次、一百次，每次都从「不同的角度」审视代码库，你最终能把所有 bug 都挖出来。

「多烧 Token 就能提升 Agent 质量」这个观点，还有一个实证支撑：那些声称能用 Agent 全程写代码直接推上生产的团队，要么是基础模型提供商本身，要么是资金极其充裕的公司。

所以，如果你还在为 Agent 跑不出生产级代码而苦恼——说句直白的，问题出在你身上。或者说，出在你钱包上。

怎么判断我烧的 Token 够不够

我写过一整篇文章说，问题绝对不在你搭的框架（harness），「保持简单」照样能做出优秀的东西，我现在仍然坚持这个观点。你读了那篇，照着做了，但还是对 Agent 的输出大失所望。你给我发了 DM，看到我已读但没回。

这篇，就是回复。

你的 Agent 表现差、解决不了问题，大多数情况下，就是因为你烧的 Token 不够。

解决一个问题需要投入多少 Token，完全取决于这个问题的规模、复杂度和新颖性。

「2+2 等于几？」不需要多少 Token。

「帮我写一个 bot，能扫描 Polymarket 和 Kalshi 之间的所有市场，找出在语义上相似、应该在同一事件前后结算的市场，设定无套利边界，一旦出现套利机会就以低延迟的方式自动交易」——这需要烧一大堆 Token。

我们在实践中发现了一件有意思的事。

如果你投入足够多的 Token 去处理由规模和复杂度引发的问题，Agent 无论如何都能解决。换句话说，如果你想构建一个极度复杂、有很多组件和代码行的东西，只要你往这些问题里砸足够多的 Token，它们最终都能被彻底解决。

这里有一个小但重要的例外。

你的问题不能太新颖。就目前阶段而言，任何数量的 Token 都无法解决「新颖性」问题。足够多的 Token 能把复杂性带来的错误降到零，但无法让 Agent 凭空发明它不知道的东西。

这个结论其实让我们松了口气。

我们花了极大精力，烧了——很多很多非常多——Token，想试试能不能在几乎不给引导的情况下让 Agent 还原出机构投资流程。这部分原因是想搞清楚，我们（作为量化研究员）离被 AI 完全取代还有多少年。结果发现，Agent 根本做不到接近一个像样的机构投资流程。我们认为这部分原因是它们从未见过这种东西——也就是说，机构投资流程在训练数据里根本不存在。

所以，如果你的问题是新颖的，别指望靠堆 Token 来解决。你需要自己引导探索过程。但一旦你确定了实现方案，你就可以放心堆 Token 来执行——无论代码库多大、组件多复杂，都不是问题。

这里有一个简单的启发式原则：Token 预算应当与代码行数成正比地增长。