ROI这口利剑，终于悬在了AI员工头顶

个人专栏

2026-06-30热度: 4895

文章探讨AI编程Agent公司Cognition如何将AI员工价值从token消耗转向ROI衡量，通过‘等效工程师小时’量化Devin创造的生产力，并推出Productivity Guarantee承诺价值不达标即退款，推动AI从工具升级为可预算、可考核的企业级生产力方案。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

文 | 字母AI

过去，AI公司习惯按使用量收费。无论是token消耗制还是额度制，本质上都是“用多少、付多少”。

这套模式适合模型API，却未必适合越来越深入工作流的企业Agent。为了完成一个任务，它们会不断读取上下文、提炼信息、调用工具……token消耗很容易膨胀。

一些企业甚至开始出现token maxxing的情况——员工和Agent不断增加AI使用量，却很难证明这些token最终创造了多少价值。

如此这般，企业AI的成本越来越高，生产力回报却并不总是清晰。Gartner预计，到2028年，AI编程工具的成本甚至可能超过开发者薪资。

就在大家还在讨论token该怎么省的时候，AI编程Agent公司Cognition提出了另一种思路：

它没有继续强调Devin消耗了多少token，而是把Devin完成的工作折算成“等效工程师小时”，再换算成美元价值。更进一步，Cognition还推出了Productivity Guarantee——如果Devin创造的工程价值低于客户支付的费用，公司将返还最高1000万美元额度的使用credits。

Devin

比起“AI能不能干活”，Cognition试图回答另一个老板更为关心的问题：

这个AI员工，到底值不值这个价。

token消耗只是成本，不是价值

单看产品形态，Cognition的主产品Devin仍然属于AI编程Agent：写代码、修Bug、提交PR，都是这个赛道里的标准能力。让它脱颖而出的是，Cognition没有把Devin只当成一个开发者工具来卖，而是把它包装成一套能用ROI来衡量的生产力方案。

在David Senra 6月28日的最新访谈里，Cognition的CEO Scott Wu 专门用了一个章节讨论“Measuring ROI Instead Of Token Spend”（用ROI而不是token消耗，来衡量AI的价值）。

他提到，一些企业开始统计员工用了多少AI、消耗了多少token，甚至把token用量当成内部指标。但这样很容易偏离真正的问题。

因为token消耗只是成本，不是价值。

企业真正关心的根本不是谁用了更多AI，而是这些AI最终完成了多少工作。

Devin

Scott Wu举了一个例子：

如果一个原本需要花1500万美元、18个月的项目，最终借助Devin和内部团队，只花100万美元、3个月就完成了，那么对于CEO和CFO来说，这笔投资就是划算的。

他们其实并不在意这个项目花了多少token，甚至不在意你用的是哪家的AI——只要你能帮我解决我的问题、完成我的任务，我就觉得这笔钱画得值。

我用更少的钱、更短的时间，拿到了同样甚至更好的结果，我就赚了。

Cognition会派团队到客户现场，帮他们找适合Devin的使用场景，做用户培训，搭建工作流程，写playbook，配合安全审查和私有云部署。

也就是说，Devin被包装成一套企业生产力改造方案，而不是被当作一个“开箱即用”的工具。

这套打法不太像一家普通SaaS公司，更像一家咨询公司或IT外包公司。企业采购咨询服务，最终买单的是项目成果；采购AI Agent，也正在越来越接近这种逻辑。

在这套逻辑下，Cognition想证明的不只是Devin的代码能力，更重要的是，它值不值得进入企业预算。

AI员工的价值，是怎么被计算出来的

问题是，ROI并不是一句空话。

如果Devin要向企业证明自己“值这个价”，Cognition首先要回答一个更具体的问题：一个AI工程师完成的工作，到底怎么换算成美元价值？

Cognition专门写了一篇文章解释这套方法。它承认，直接计算AI带来的商业价值很难——一个PR到底带来多少收入，一个Bug修复到底避免了多少损失，这些很难被精确归因。所以Cognition没有一上来就计算最终商业收益，它选择了一个中间指标：“有效工程师小时”。

Devin

首先，他们收集了126位企业开发者、258个真实Devin Session的数据。每位开发者都会回答一个问题：如果没有Devin，这项工作你自己需要花多久？

这些真实反馈，被用来训练和校准整套评估系统。之后，每一次Devin完成任务，这套系统都会重新评估它到底创造了多少价值。

整个过程大致可以分为三步：

第一步，先过滤掉无效工作。

不是每一次Devin Session都算生产力。

如果Devin生成了一堆代码，最后没有被采用、没有推进项目、也没有真正解决问题（PR没有被合并），那么这些token消耗就不会被计入价值。

对于没有PR的任务，它还会用分类器判断这个Session是否真的推进了工作。比如查找未使用依赖、扫描安全漏洞、审查PR、跑数据查询、排查Bug等等，这些工作不一定产生代码，但仍然可能是有效工程工作。

相反，如果Devin因为没有权限无法继续，或者向用户追问后没人回复，这类Session就会被过滤掉。

第二步，估算人类工程师完成同样任务需要多少时间。

评估系统会读取整个Session，包括用户需求、Devin执行过程、代码、PR、日志以及代码库上下文，然后估算一名普通工程师完成同样结果需要投入多少时间。

它甚至会考虑很多细节，例如：如果用户已经告诉了Devin具体怎么改，那只计算写代码的时间；如果Bug需要自己定位，那定位时间也要算进去；如果这是一个陌生的遗留代码库，人类需要先花时间熟悉，而Devin已经完成了这部分工作，这些时间同样会计入价值。

第三步，再把工程师时间换算成美元。

Cognition采用统一的工程师成本标准，把“等效工程师小时”转换成美元价值，再与企业实际支付的费用进行比较。

如果创造的价值高于成本，企业获得正ROI；如果低于成本，Cognition就通过Productivity Guarantee返还credits（最高价值1000万美元）。

当然，Cognition并没有宣称这套算法能够精确计算每一个任务的真实价值，他们在技术文档里承认，单个任务的估算可能存在2到3倍误差。但他们认为，随着企业部署规模扩大、任务数量增加，整体平均结果会越来越稳定，更接近AI创造的真实生产力。

Devin

这套机制值得关注的地方也不是它能把每一行代码都精确折算成多少钱。重点在于，它把AI Agent的价值衡量，从“消耗了多少token”，转向了“替企业节省了多少工程时间”。

因为那些大体量的客户并不会只因为一个AI产品看起来很酷，就去大规模部署。它们要过预算、合规、安全、采购和财务审核，必须有人解释：为什么这笔钱值得花？

过去，ROI往往是客户内部采购部门、业务部门或财务部门需要自己计算的事。软件公司只负责卖工具，至于工具有没有真正提升效率、节省成本，更多要靠客户自己证明。买了、用了、效果不好，通常也是客户自己消化。

但Cognition把这件事揽了过来，在销售阶段就主动帮客户把这笔账算清楚，还用Productivity Guarantee把一部分风险接了过去。

这套打法也确实成为了Cognition扩张故事的一部分：Cognition在融资时披露，企业用量今年以来增长超过10倍，run-rate revenue已经达到4.92亿美元；同时，它把Citi、Goldman Sachs、Santander、Mercedes-Benz、Dell、美国陆军和海军等大客户放在了最显眼的位置。

Cognition这套逻辑带来的最大价值就在于，它让Devin从工程师手里的AI编程工具，变成了CFO能看懂、采购部门能推进、CEO能批准的预算项。

毕竟，不是所有老板都会写代码，但所有老板都会算账。