2026年AI学习手册:学什么、用什么、别碰什么

律动BlockBeats热度: 5739

文章聚焦AI Agent领域技术快速迭代下的核心能力建设,指出追逐新框架和benchmark是低效噪音,真正具备长期复利价值的是底层基础能力:Context Engineering、工具设计、eval体系、orchestrator-subagent模式、沙盒与harness思维。强调以结果为导向的实践路径、严苛的过滤标准(如两年后是否仍重要)、以及用交付作品替代传统资历的新职业逻辑。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

原文标题:What to Learn, Build, and Skip in AI Agents (2026)原文作者:Rohit编译:Peggy,BlockBeats

原文作者:律动BlockBeats

原文来源:https://x.com/rohit4verse/status/2049548305408131349

转载:火星财经

编者按:AI Agent 领域正在进入一个工具爆炸、共识不足的阶段。

每周都有新框架、新模型、新 benchmark 和新的「10 倍效率」产品出现,但真正重要的问题,已经不是「如何跟上所有变化」,而是「哪些变化真的值得投入」。

作者认为,在技术栈不断被重写的当下,真正能长期复利的不是追逐最新框架,而是更底层的能力:context engineering、工具设计、eval 体系、orchestrator-subagent 模式、沙盒与 harness 思维。这些能力不会随着模型换代迅速失效,反而会成为构建可靠 AI Agent 的基础。

文章更进一步指出,AI Agent 也在改变「资历」的含义。过去,学历、职级和年限是进入行业的通行证;但在一个连巨头都还在公开试错的领域里,简历不再是唯一凭证。你做出了什么、交付了什么,正在变得更重要。

因此,本文不只是讨论 2026 年 AI Agent 该学什么、用什么、跳过什么,更是在提醒:在噪音越来越多的时代,最稀缺的能力,是判断什么值得学,并持续做出真正有用的东西。

以下为原文:

Evals

每天都会冒出一个新框架、一个新基准、一个新的「10 倍效率」产品。问题不再是「我该怎么跟上」,而是:这里面到底什么是真信号,什么只是披着紧迫感外衣的噪音。

每一份路线图,发布一个月后就可能过时。你上个季度刚掌握的框架,现在已经成了旧东西。你曾经为之优化的 benchmark,被人刷穿之后很快又被新的取代。过去,我们被训练成沿着一条传统路径前进:一个技术栈,对应一组主题和层级;一串工作经历,对应年限和头衔;一步一步缓慢往上爬。但 AI 改写了这张画布。今天,只要提示词用得对、审美判断足够好,一个人就能交付过去需要一名有两年经验的工程师花一个 sprint 才能完成的工作。

专业能力依然重要。没有什么可以替代你亲眼见过系统崩掉,凌晨两点调过内存泄漏,也没有什么能替代你曾经力排众议选择一个无聊但正确的方案,并最终被证明是对的。这样的判断力会复利增长。但不再像过去那样复利增长的,是你对「本周热门框架 API 表面」的熟悉程度。六个月后,它可能又变了。两年后真正胜出的人,是那些早早选中耐用基础能力、并让其他噪音从身边经过的人。

过去两年,我一直在这个领域构建产品,拿到过多个年薪 25 万美元以上的 offer,现在在一家隐身公司负责技术。如果有人问我:「现在到底应该关注什么?」这就是我会发给他的内容。

这不是一张路线图。Agent 领域还没有明确目的地。大厂实验室也在公开迭代,把回归问题直接推给数百万用户,再写复盘、在线修补。如果 Claude Code 背后的团队都能发布一个造成 47% 性能回退的版本,而且直到用户社区发现后才意识到问题,那么所谓「底下存在一张稳定地图」的想法就是虚构的。所有人都还在摸索。创业公司之所以有机会,正是因为巨头也不知道答案。不会写代码的人正在和 agent 搭档,在周五交付一些周二还被机器学习博士认为不可能的东西。

这个时刻最有意思的一点,是它改变了我们对「资历」的理解。传统路径优化的是资历:学位、初级岗位、高级岗位、资深岗位,以及缓慢积累起来的职级。这在底层领域不发生剧烈变化时是合理的。但现在,脚下的地面正在以同样的速度从所有人脚下移动。一个 22 岁、公开发布 agent demo 的年轻人,和一个 35 岁的资深工程师之间的差距,不再只是十年技术栈熟练度的积累。这个 22 岁的人和资深工程师面对的是同一张空白画布。对他们来说,真正会复利增长的是持续交付的意愿,以及那一小部分不会在一个季度内过时的基础能力。

这就是整篇文章的核心重构。接下来,我会提供一种判断方式:哪些基础能力值得你投入注意力,哪些发布可以直接让它过去。适合你的就拿走,不适合的就放下。

真正有效的过滤器

你不可能跟上每周的新发布,也不应该这么做。你需要的不是信息流,而是过滤器。

过去 18 个月里,有五个测试一直有效。在让某个新东西进入你的技术栈之前,先用这五个问题过一遍。

两年后它还重要吗?
如果它只是某个前沿模型外面套的一层壳、一个 CLI 参数,或者「某某版 Devin」,答案几乎总是否定的。如果它是一个基础原语,比如协议、记忆模式、沙盒方法,答案就更可能是肯定的。套壳产品的半衰期很短,基础原语的半衰期可以按年计算。

有没有你尊重的人,已经基于它做出了真实产品,并且诚实写过经验?
营销文章不算,复盘文章才算。一篇题为「我们在生产环境里试了 X,结果这里出问题了」的博客,比十篇发布公告更有价值。这个领域里真正有用的信号,永远来自那些为此失去过一个周末的人。

采用它,是否意味着你要丢掉现有的 tracing、重试机制、配置、认证系统?
如果是,那它就是一个试图把自己做成平台的框架。试图成为平台的框架,死亡率大约有 90%。好的基础原语,应该能嵌入你现有系统,而不是逼你迁移。

如果你跳过它六个月,代价是什么?
对大多数发布来说,答案是什么都没有。六个月后你会知道更多,胜出的版本也会更清楚。这一条测试,可以让你毫无焦虑地跳过 90% 的发布。但也是最多人拒绝使用的一条,因为跳过某个东西会让人感觉自己落后了。实际上并不是。

你能否衡量它是否真的让你的 agent 变好了?
如果不能,那你只是在猜。没有 eval 的团队靠感觉运行,最终会把回归问题发到线上。有 eval 的团队,则可以让数据告诉自己:在本周这个具体工作负载上,到底是 GPT-5.5 更好,还是 Opus 4.7 更好。

如果你只从这篇文章里带走一个习惯,那就是:每当一个新东西发布时,写下你需要在六个月后看到什么,才会相信它真的重要。然后六个月后回来检查。大多数时候,问题自己已经给出了答案,而你的注意力也会被用在那些真正能复利增长的事情上。

这些测试背后真正的能力,比任何一条测试都更难命名。它是一种愿意「不赶时髦」的能力。这个星期在 Hacker News 爆火的框架,会在十四天内拥有一支啦啦队,他们听起来都会很聪明。但六个月后,其中一半框架已经无人维护,那些啦啦队也早已转向下一个热点。没有参与其中的人,把注意力省下来,留给那些在发布热潮过去后依然经受住「变得无聊」考验的东西。克制、观望、说一句「六个月后我就知道了」,才是这个领域真正的职业技能。所有人都会读发布公告,但几乎没人擅长不对它们做反应。

该学什么

概念、模式、事物的形状。真正带来复利回报的是这些东西。它们能穿越模型替换、框架替换和范式转移。深刻理解它们,你就能在一个周末内上手任何新工具。跳过它们,你就会永远在重新学习表层机制。

Context Engineering

过去两年里,最重要的一次改名,是「Prompt Engineering」变成了「Context Engineering」。这个变化是真的,不只是换个说法。

模型不再是一个你给它写一条聪明指令的东西。它变成了一个你需要在每一步为其组装可工作上下文的东西。这个上下文同时包含系统指令、工具 schema、检索到的文档、之前的工具输出、scratchpad 状态,以及压缩后的历史记录。Agent 的行为,是你放进上下文窗口里的所有内容共同涌现出来的结果。

你需要内化这一点:上下文就是状态。每一个无关 token 都会消耗推理质量。上下文腐烂,是一种真实的生产故障。到一个十步任务的第八步时,最初目标可能已经被工具输出埋掉了。能交付可靠 agent 的团队,会主动总结、压缩、裁剪上下文。他们会给工具描述做版本管理,会缓存静态部分,也会拒绝缓存会变化的部分。他们看待上下文窗口的方式,就像一个有经验的工程师看待内存。

一个具体的感受方式是:拿任意一个生产环境里的 agent,打开完整 trace 日志。看看第一步时的上下文,再看看第七步时的上下文。数一数还有多少 token 仍然在发挥作用。第一次做这件事时,你大概率会感到尴尬。然后你会去修它,而同一个 agent 会在不更换模型、不改 prompt 的情况下,明显变得更可靠。

如果你只读一篇相关内容,就读 Anthropic 的《Effective Context Engineering for AI Agents》。然后再读他们关于多 agent 研究系统的复盘,那篇文章用数字说明了当系统规模扩大后,上下文隔离有多重要。

工具设计

工具是 agent 与你的业务发生接触的地方。模型会根据工具名称和描述来选择工具,会根据错误信息来决定如何重试。工具的契约是否符合 LLM 擅长表达的方式,决定了模型是成功还是失败。

五到十个命名良好的工具,胜过二十个平庸的工具。工具名称应该像自然英文里的动词短语。描述应该写清楚什么时候该用,什么时候不该用。错误信息应该是模型可以据此行动的反馈。「超过 500 个 token 上限,请先总结再尝试」远胜于「Error: 400 Bad Request」。公开研究中有一个团队报告称,他们仅仅重写错误信息,就让重试循环减少了 40%。

Anthropic 的《Writing tools for agents》是很好的起点。读完之后,给你自己的工具加上观测,看看真实调用模式。Agent 可靠性最大的提升,几乎总是发生在工具侧。很多人不断调 prompt,却忽视了真正杠杆所在的位置。

Orchestrator-Subagent 模式

2024 年和 2025 年关于多 agent 的争论,最终收敛成了一个如今大家都在采用的综合方案。天真的多 agent 系统,也就是多个 agent 并行写入共享状态的系统,会灾难性失败,因为错误会不断复合。单 agent 循环能扩展到的程度,往往比你想象中更远。真正能在生产环境里工作的多 agent 形态只有一种:一个 orchestrator agent,把范围狭窄、只读的任务委派给隔离的 subagent,然后再综合它们的结果。

Anthropic 的研究系统是这样工作的。Claude Code 的 subagents 也是这样工作的。Spring AI 和多数生产框架现在也在标准化这一模式。Subagent 拥有小而聚焦的上下文,不能修改共享状态。写入由 orchestrator 负责。

Cognition 的《Don』t Build Multi-Agents》和 Anthropic 的《How we built our multi-agent research system》看起来像是相反观点,但其实只是用不同词汇在说同一件事。两篇都值得读。

默认使用单 agent。只有当单 agent 确实撞到真实边界时,再考虑 orchestrator-subagent:比如上下文窗口压力、顺序工具调用带来的延迟,或者任务异质性确实能从聚焦上下文中获益。在还没有感受到痛点之前就构建这套东西,只会交付你并不需要的复杂性。

Evals 与黄金数据集

每一个能交付可靠 agent 的团队都有 eval。没有 eval 的团队,通常也交付不出可靠 agent。这是这个领域杠杆最高的习惯,也是我在每家公司里看到的最被低估的事情。

有效做法是:收集生产环境 trace,标注失败案例,把它们当作回归集。每当新的失败上线,就把它加进去。主观部分使用 LLM-as-judge,其他部分使用精确匹配或程序化检查。在任何 prompt、模型或工具变更之前,都跑一遍测试套件。Spotify 工程博客报告称,他们的 judge 层会在输出上线前拦下大约 25% 的 agent 输出。如果没有它,每四个坏结果中就会有一个抵达用户面前。

让这件事真正扎根的心智模型是:eval 就是一个单元测试,用来在其他所有东西都不断变化时,确保 agent 没有偏离职责。模型会出新版本,框架会发布破坏性变更,供应商会废弃某个端点。你的 eval 是唯一能告诉你 agent 是否还在正常工作的东西。没有 eval,你就在写一个正确性取决于移动目标善意的系统。

Eval 框架,比如 Braintrust、Langfuse evals、LangSmith,都还不错。但它们都不是瓶颈。真正的瓶颈,是你首先有没有一个已标注的数据集。第一天就该开始做,在扩展任何东西之前就做。最初的 50 个样本,一个下午就能手工标完。没有借口。

把文件系统当作状态,以及 Think-Act-Observe 循环

对于任何执行真实多步骤工作的 agent 来说,耐用的架构都是:思考、行动、观察、重复。文件系统或结构化存储,是事实来源。每个动作都被记录,并且可以重放。Claude Code、Cursor、Devin、Aider、OpenHands、goose 都收敛到这一点,不是没有原因的。

模型本身是无状态的。运行框架必须是有状态的。文件系统是每个开发者都已经理解的有状态基础原语。一旦接受这个框架,整套 harness 纪律都会自然展开:checkpoint、可恢复性、sub-agent 验证、沙盒执行。

这里更深的一层启发是:在任何值得为其支付算力账单的生产 agent 中,harness 做的工作都比模型更多。模型选择下一步行动,harness 验证它,在沙盒中运行它,捕获输出,决定把什么反馈回去,决定什么时候停止,决定什么时候 checkpoint,决定什么时候生成 subagent。把模型换成另一个同等质量的模型,一个好的 harness 仍然能交付产品。把 harness 换成一个更差的,即使是世界上最好的模型,也会产出一个会随机忘记自己在做什么的 agent。

如果你构建的东西比一次性工具调用更复杂,那么你真正应该投入时间的地方是 harness。模型只是其中的一个组件。

从概念上理解 MCP

不要只是学习怎么调用 MCP server。要学习它的模型。它在 agent 能力、工具与资源之间建立了清晰分离,并在底层提供了可扩展的认证与传输方案。一旦理解了这一点,你看到的其他「agent 集成框架」,都会像是 MCP 的低配版,你也就省下了逐个评估它们的时间。

Linux Foundation 现在负责托管 MCP。所有主要模型提供商都支持它。把它比作「AI 的 USB-C」,现在已经比讽刺更接近事实。

沙盒化是一种基础原语

每一个生产级 coding agent 都运行在沙盒里。每一个浏览器 agent 都遭遇过间接 prompt injection。每一个多租户 agent,某个阶段都出现过权限范围 bug。你应该把沙盒化当作基础设施原语,而不是等客户提出要求后才添加的功能。

要学基础知识:进程隔离、网络出口控制、密钥范围管理、agent 与工具之间的认证边界。那些等客户安全审查后才临时补上的团队,往往会丢掉交易。那些从第一周就把它做进去的团队,才会在企业采购流程中轻松通过。

该用什么构建

以下是截至 2026 年 4 月的具体选择。这些选择会变化,但不会变化得太快。在这一层,尽量选「无聊但稳」的东西。

编排层

LangGraph 是生产环境里的默认选择。大约三分之一运行 agent 的大型公司都在用它。它的抽象方式符合 agent 系统的真实形态:类型化状态、条件边、持久化工作流,以及 human-in-the-loop 检查点。缺点是写起来啰嗦;优点是,当一个 agent 真正进入生产环境后,你确实需要控制这些东西,而它的啰嗦正好对应了这些控制需求。

如果你主要使用 TypeScript,Mastra 是事实上的选择。它是这个生态里心智模型最清晰的方案。

如果你的团队喜欢 Pydantic,并且希望把类型安全作为一等公民,Pydantic AI 是一个合理的 greenfield 选择。它在 2025 年底发布了 v1.0,势头确实存在。

如果是 provider-native 的工作,比如 computer use、语音、实时交互,可以在 LangGraph 节点里使用 Claude Agent SDK 或 OpenAI Agents SDK。不要试图让它们成为异构系统的顶层编排器。它们是为各自擅长的场景优化的。

协议层

MCP,没别的。

把你的工具集成做成 MCP server。外部集成也用同样方式消费。现在 MCP registry 已经越过了临界点:大多数情况下,在你需要自己构建之前,已经能找到一个现成 server。2026 年还在手写自定义工具 plumbing,基本是在白交税。

记忆层

选择记忆系统时,不要按热度选,要按 agent 的自主程度选。

Mem0 适合聊天式个性化:用户偏好、轻量历史记录。Zep 适合生产级对话系统,尤其是状态会持续演化、需要实体追踪的场景。Letta 适合那些需要在几天甚至几周工作周期里保持一致性的 agent。大多数团队不需要这个;但真正需要的团队,需要的正是它。

常见错误是:还没有记忆问题,就先上记忆框架。先从上下文窗口能容纳的内容,加一个向量数据库开始。只有当你能清楚说出它要解决的失败模式时,再加入记忆系统。

可观测性与 evals

Langfuse 是开源默认选择。它可以自托管,采用 MIT 许可证,覆盖 tracing、prompt 版本管理,以及基础的 LLM-as-judge evals。如果你已经是 LangChain 用户,LangSmith 集成会更紧密。Braintrust 适合研究型 eval 工作流,尤其是需要严谨比较的场景。OpenLLMetry / Traceloop 则适合需要 vendor-neutral OpenTelemetry instrumentation 的多语言技术栈。

你需要同时拥有 tracing 和 evals。Tracing 回答的是:「agent 到底做了什么?」Evals 回答的是:「agent 比昨天变好了,还是变差了?」没有这两样,不要上线。第一天就把这些东西接好,成本远低于在盲跑之后再补救。

运行时与沙盒

E2B 适合通用的沙盒代码执行。Browserbase 搭配 Stagehand,适合浏览器自动化。Anthropic Computer Use 适合需要真实操作系统级桌面控制的场景。Modal 适合短时突发任务。

永远不要运行未沙盒化的代码执行。一个被 prompt injection 攻破的 agent,如果直接在生产环境中运行,其爆炸半径会变成一个你绝不想讲给别人听的故事。

模型

追 benchmark 很累,而且大多数时候没太大帮助。务实地看,截至 2026 年 4 月:

·Claude Opus 4.7 和 Sonnet 4.6 适合可靠的工具调用、多步骤一致性,以及优雅的失败恢复。对大多数工作负载·来说,Sonnet 是成本与性能之间的甜点位。

·GPT-5.4 和 GPT-5.5 适合需要最强 CLI / terminal 推理能力,或者你本身就生活在 OpenAI 基础设施里的场景。

·Gemini 2.5 和 3 适合长上下文密集型,或者多模态密集型任务。

·当成本比顶级性能更重要时,尤其是处理边界清晰、定义狭窄的任务,可以考虑 DeepSeek-V3.2 或 Qwen 3.6。

把模型视为可替换组件。如果你的 agent 只能在某一个模型上工作,这不是护城河,而是坏味道。用 evals 决定部署什么模型。每个季度重新评估一次,不要每周都追着换。

什么可以跳过

你会不断被人劝去学习、使用下面这些东西。其实不需要。跳过它们的代价很低,省下的时间很多。

AutoGen 和 AG2,不要用于生产。
Microsoft 的这个框架已经转向社区维护,发布节奏停滞,抽象方式也不符合生产团队真正需要的形态。做学术探索可以,但不要把产品押在上面。

CrewAI,不要用于新的生产构建。
它到处都能看到,因为它很适合做 demo。真正构建生产系统的工程师已经在迁出它。你想用它做原型可以,但不要长期绑定。

Microsoft Semantic Kernel,除非你已经深度锁定在 Microsoft 企业技术栈里,而且你的买方也在意这一点。
它不是生态系统正在走向的方向。

DSPy,除非你专门在大规模优化 prompt programs。
它有哲学价值,但受众很窄。它不是通用 agent 框架,也不要把它当成通用框架来选。

把独立 code-writing agent 当作架构选择。
Code-as-action 是有意思的研究方向,但它还不是生产环境里的默认模式。你会遇到许多工具链和安全问题,而你的竞争对手可能根本不用处理这些。

「Autonomous agent」式推销。
AutoGPT 和 BabyAGI 那条产品形态上的路线已经死了。行业最终接受的诚实说法是「agentic engineering」:有监督、有边界、有评估。2026 年还在卖「部署后就不用管」的 autonomous agent 的人,本质上是在卖 2023 年的东西。

Agent app store 和 marketplace。
从 2023 年开始就有人承诺这件事,但从未真正获得企业 traction。企业不会购买通用的预制 agent。它们要么买和具体结果绑定的垂直 agent,要么自己构建。不要围绕一个 app store 梦想来设计你的业务。

作为客户,谨慎选择横向的「build any agent」企业平台。
例如 Google Agentspace、AWS Bedrock Agents、Microsoft Copilot Studio 这一层。它们以后可能会有用,但现在仍然混乱、发版慢,而且 buy-versus-build 的账通常仍然倾向于:自己构建一个窄 agent,或者购买一个垂直 agent。Salesforce Agentforce 和 ServiceNow Now Assist 是例外,因为它们赢在已经嵌入你正在使用的工作流系统里。

不要追 SWE-bench 和 OSWorld 排行榜。
Berkeley 研究人员在 2025 年记录到,几乎所有公开 benchmark 都可以被刷榜,而不需要真正解决底层任务。现在团队会把 Terminal-Bench 2.0 和自己的内部 evals 当作更真实的信号。默认对单一数字的 benchmark 飞跃保持怀疑。

天真的并行多 agent 架构。
五个 agent 围绕共享记忆聊天,在 demo 里看起来很厉害,到了生产环境就会散架。如果你不能在餐巾纸上画出一张清晰的 orchestrator-subagent 图,并标明读写边界,就不要上线。

新 agent 产品不要用 per-seat SaaS 定价。
市场已经转向 outcome-based 和 usage-based。按席位收费不仅会让你少赚,还会向买方释放一个信号:你自己都不相信产品能交付结果。

这个星期你在 Hacker News 上看到的下一个框架。
等六个月。如果它到时候还重要,你会很清楚。如果它不重要,你就省下了一次迁移。

具体该怎么推进

如果你不是只想「跟上 agent」,而是真的想采用 agent,下面这个顺序是有效的。它很无聊,但有用。

先选一个已经重要的结果。不要选 moonshot,不要一上来做一个横向的「agent platform」项目。选一个你的业务本来就关心、而且可以衡量的事情:减少客服工单、生成第一版法律审查意见、筛选 inbound leads、生成月度报告。Agent 是否成功,取决于这个结果是否改善。它从第一天起就是你的 eval target。

这一步之所以比其他任何步骤都重要,是因为它会约束后续所有决策。有了具体结果,「选哪个框架」就不再是哲学问题,你会选择最快能交付这个结果的框架。「选哪个模型」也不再是 benchmark 争论,而是选择你的 evals 证明在这项具体工作上有效的模型。「我们需不需要记忆、subagents、定制 harness」也不再是思维实验,而是只在具体失败模式需要时才添加。

跳过这一步的团队,最后往往会做出一个没人要的横向平台。认真对待这一步的团队,通常会交付一个狭窄但能在一个季度内回本的 agent。而这个真正上线的 agent,会教会他们比读两年文章更多的东西。

在上线任何东西之前,先设置 tracing 和 evals。选 Langfuse 或 LangSmith,把它接好。必要时手工构建一个小型 golden dataset。50 个标注样本就足够开始。你无法改进自己无法衡量的东西。以后再补这套系统,成本大约是现在就做的 10 倍。

从一个单 agent 循环开始。选择 LangGraph 或 Pydantic AI。模型选择 Claude Sonnet 4.6 或 GPT-5。给 agent 三到七个设计良好的工具。让它用文件系统或数据库作为状态。先发给小范围用户,观察 traces。

把 agent 当作产品,而不是项目。它会以你没预料到的方式失败,而这些失败就是你的路线图。用真实生产 trace 构建 regression set。每一次 prompt 变更、模型替换、工具修改,都要在部署前通过 evals。大多数团队都低估了这里的投入,而大多数可靠性也正是从这里来的。

只有当你已经「挣到了」扩展范围的资格,再增加复杂度。上下文成为瓶颈时,再引入 subagents。单窗口上下文无法承载所需内容时,再引入记忆框架。底层 API 真不存在时,再引入 computer use 或 browser use。不要提前设计这些东西。让失败模式把它们拉进来。

选择无聊的基础设施。工具用 MCP。沙盒用 E2B 或 Browserbase。状态用 Postgres,或者你们已经在运行的数据存储。认证和可观测性也尽量沿用现有系统。奇特的基础设施很少是真正的胜负手,真正的胜负手是纪律。

从第一天就盯住单位经济模型。每次 action 成本、缓存命中率、重试循环成本、模型调用分布。Agent 在 PoC 阶段看起来很便宜,但如果你一开始没有按 outcome 监控成本,规模扩大 100 倍时成本会爆炸。一个 0.50 美元一次运行的 PoC,在中等规模下就可能变成每月 5 万美元。没提前看到这一点的团队,会迎来一场他们并不喜欢的 CFO 会议。

每个季度重新评估模型,而不是每周重新评估。锁定一个季度。季度结束时,用你的 eval suite 跑一遍当前前沿模型。如果数据说明该换,就换。这样你能获得模型进步的收益,同时避免追逐每次发布带来的混乱。

如何判断潮流

下面是一些具体信号,说明某件事可能是真的 signal:一个受尊重的工程团队写了带数字的 postmortem,而不只是宣称有多少人采用;它是一个基础原语,比如协议、模式或基础设施,而不是套壳或打包;它能和你已经运行的系统互操作,而不是替代它;它的 pitch 讲的是它解决了什么失败模式,而不是它开启了什么能力;它已经存在了足够长时间,长到有人能写出一篇「哪些地方没奏效」的博客。

下面是一些具体信号,说明某件事可能只是噪音:发布 30 天后仍然只有 demo 视频,没有生产案例;benchmark 跃升干净得不像真的;pitch 里不加限定地使用「autonomous」「agent OS」或「build any agent」;框架文档默认你会扔掉现有的 tracing、auth 和 config;star 数增长很快,但 commits、releases 和 contributors 没有同步增长;Twitter 速度很快,但 GitHub 速度跟不上。

一个有用的每周习惯是:周五留出 30 分钟看这个领域。读三样东西:Anthropic 工程博客、Simon Willison 的笔记、Latent Space。如果这一周有 postmortem,再扫一两篇。其他都可以跳过。真正重要的东西,你不会错过。

接下来值得观察什么

未来两个季度值得关注的事情,不是因为它们一定会赢,而是因为「这到底是不是 signal」这个问题还没有完全解决。

Replit Agent 4 的 parallel forking 模型。
这是第一批认真尝试「多个 agent 并行工作」但又不被共享状态绊倒的方案之一。如果它能在规模化后站住脚,orchestrator-subagent 这个默认模式可能会发生变化。

Outcome-based pricing 的成熟度。
Sierra 和 Harvey 的收入轨迹,已经在狭窄垂直领域验证了这一模式。问题是,它是否能推广到其他领域,还是只适用于垂直场景。

Skills 作为能力封装层。
GitHub 上 AGENTS.md 和 skills directories 的增多,说明一种封装 agent 能力的新方式正在出现。它是否会像 MCP 标准化工具那样标准化能力层,这是一个开放问题。

Claude Code 2026 年 4 月质量回退及其复盘。
一个行业领先的 agent 发布了一个造成 47% 性能回退的版本,而且是用户先发现,内部监控后发现。这说明即使在领先者那里,生产级 agent eval 实践仍然很不成熟。如果这件事推动整个行业投资更好的 online evals,那么这次纠偏是健康的。

语音成为默认客服界面。
Sierra 的语音渠道在 2025 年底已经超过文本渠道。如果这一模式在其他垂直领域延续,那么延迟、打断、实时工具调用等设计约束会变成一阶问题,很多现有架构都需要重做。

开源模型 agent 能力继续缩小差距。
DeepSeek-V3.2 原生支持 thinking-into-tool-use,Qwen 3.6 以及更广泛的开源模型生态都值得关注。狭窄 agent 任务上的成本性能比正在变化。闭源模型默认占优的局面不会永久存在。

这些事情中的每一件,都可以对应一个清晰问题:「六个月后,我需要看到什么,才会相信它真的重要?」这就是测试。追踪答案,而不是追踪公告。

反常识的赌注

每一个你没有采用的框架,都是一次你不欠未来的迁移。每一个你没有追逐的 benchmark,都是一个季度的专注力。这个周期里正在赢的公司——Sierra、Harvey、Cursor,各自在自己的领域中——都选择了狭窄目标,建立了无聊的纪律,然后让这个领域的噪音从身边经过。

传统路径是:选一个技术栈,花很多年掌握它,然后沿着阶梯往上爬。这在技术栈能稳定十年的时候是有效的。但现在,技术栈每个季度都在变。真正赢的人,不再优化「掌握某个技术栈」的能力,而是在优化品味、基础原语和交付速度。他们公开构建小东西,通过交付来学习。别人是因为他们已经做出来的东西,而把他们拉进房间。作品本身就是资历。

请认真想一想这一点,因为这正是整篇文章真正想说的。我们大多数人接受的工作模型,都假定这个世界会稳定足够久,让资历能够复利增长。你去上学,拿学位,爬梯子。这里待两年,那里待三年,简历慢慢变成能打开门的东西。整个机器的前提,是它对面的行业足够稳定。

但 agent 领域现在没有一个稳定的「对面」。你想加入的公司可能只有六个月大。它们构建所用的框架可能只有十八个月历史。底层协议可能也只有两年。这个领域里一半最常被引用的文章,作者三年前甚至还不在这个领域里。没有梯子可爬,因为这栋楼一直在变楼层。当梯子失效时,剩下的是一种更古老的方法:做出一个东西,放到互联网上,让作品替你介绍自己。这是一条反常识路径,因为它绕开了资历认证系统。但在一个不断移动的领域里,它也是唯一真正能复利增长的路径。

这就是从内部看到的时代样貌。连巨头也在公开迭代,发布回归问题,写复盘,在线修补。今年交付最有意思东西的团队里,有些人 18 个月前还不在这个领域。不会写代码的人正在和 agent 搭档,交付真实软件。博士可能会被那些选对基础原语并开始快速出手的构建者超越。大门已经打开。大多数人却还在找申请表。

你现在真正需要培养的技能,不是「agents」。而是在一个表层不断变化的领域里,判断哪些工作会复利增长的纪律。Context engineering 会复利增长。工具设计会复利增长。Orchestrator-subagent 模式会复利增长。Eval 纪律会复利增长。Harness 思维会复利增长。周二刚发布的框架 API 不会。一旦你能区分它们,每周一波又一波的新发布就不再像压力,而会变成你可以忽略的噪音。

你不需要学会所有东西。你需要学会那些会复利增长的东西,并跳过那些不会复利增长的东西。选一个 outcome。在上线前接好 tracing 和 evals。使用 LangGraph,或者你团队里的等价工具。使用 MCP。把 runtime 放进沙盒。默认从单 agent 开始。只有当失败模式把复杂度拉进来时,再扩大范围。每个季度重新评估模型。周五读三样东西。

这就是 playbook。剩下的,是品味、交付速度,以及不追逐无关紧要之物的耐心。

去构建东西。把它们放到互联网上。这个时代奖励的是做出东西的人,而不是只会描述东西的人。现在是成为那个「真正做出来的人」的最好窗口。

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。