

AI Agent创业公司Lindy因推理成本超薪资支出,耗时9个月将生产环境模型从Anthropic全面切换至DeepSeek V4,虽迁移工作量激增100倍,但一年节省数百万美元,且在邮件处理等核心场景表现提升,反映行业正从追求模型性能转向兼顾成本与实效。
这几年,大模型行业的竞争几乎围绕着参数规模、推理能力和榜单排名展开,谁的模型更聪明,谁就能吸引更多开发者和企业客户;但随着 AI Agent 进入实际生产环境,越来越多公司发现:模型再强,如果成本无法控制,最终也很难成为一门可持续的生意。
最近,一家名为 Lindy 的 AI Agent 创业公司就公开展示了这种变化:
其创始人兼 CEO Flo Crivello 宣布,公司已经把生产环境中的全部模型流量从 Anthropic 切换至 DeepSeek V4——按照他的说法,这一决定不仅为公司节省了数百万美元的推理成本,而且在部分核心业务场景中,模型表现甚至还出现了提升。
消息一出,很快在 AI 圈引发热议。
简单介绍一下。Lindy 是一家专注于 AI Agent 的平台,用户无需编写代码,就可以创建自己的 AI 助手,让其自动完成邮件处理、会议安排、CRM 录入、客户跟进、数据整理等各种办公任务。
其创始人 Flo Crivello 也并非第一次创业。在创办 Lindy 之前,他曾在 Uber 担任工程师和产品负责人,后来又创立远程办公平台Teamflow,并成功融资 5200 万美元。2023 年生成式 AI 浪潮兴起,他将业务方向转向 AI Agent 并推出了 Lindy。
与很多AI应用一样,Lindy的核心成本并不是服务器、办公场地或者市场营销,而是模型推理费用。今年 4 月,Crivello 就在 X 上公开表示,推理成本已成为公司最大的支出项目,甚至超过了员工薪资总额。

对于一家依赖 AI 持续运行的产品而言,这个问题显然很严峻。而事实上,类似情况正在整个行业蔓延:
● 不久前,GitHub 宣布调整 Copilot 订阅模式,将部分服务从固定月费转向按量计费。因为 Agent 式编程越来越普及,用户一次性触发的推理请求数量大幅增长,原本的订阅价格已经难以覆盖成本。
● Uber 内部也面临类似困扰。由于大量使用 Anthropic 旗下 Claude Code 等 AI 工具,公司原本规划给 2026 年的 AI 预算,仅用了四个月便接近耗尽,甚至引发管理层对于投入产出比的重新讨论。
就在为此,近期 Linux 基金会甚至联合谷歌、微软、IBM、Salesforce 等企业成立了 Tokenomics 基金会,希望推动建立统一的 AI Token 成本标准。
尽管面临着推理成本难题,但 Lindy 最终选择 DeepSeek,并非一时冲动。
按照 Crivello 的说法,团队实际上已经为这次切换模型准备了很长时间:“我们一直在寻找替代方案,并评估各种开源模型,大概持续了 6-9 个月。”
过去一年里,开源模型的发展速度让很多创业公司重新思考自己的技术路线。
如果把时间拨回 2024 年,很多企业对于开源模型的评价仍然是“差距明显”;但到了 2025 年底至 2026 年,情况已经发生巨大变化:DeepSeek、Kimi、GLM 等一批中国模型持续刷新性能纪录,而推理成本却远低于 OpenAI 和 Anthropic 等闭源模型。
Crivello 曾透露,Lindy 最初一度想把月之暗面的 Kimi 作为默认模型,后来又认真评估过智谱 AI 推出的 GLM 系列模型。而最终,他们将目光锁定在今年 4 月发布预览版的 DeepSeek V4 上。相比此前广受关注的 DeepSeek R1,V4 进一步提升了通用能力和 Agent 任务表现,并继续保持极具竞争力的价格优势。
今年 6 月初,在 Lindy 完成内部测试后,一个让团队颇为意外的结果出现了:不仅成本更低,在某些关键业务场景中,DeepSeek 的表现甚至超过了 Anthropic。

然而,从 Anthropic 迁移到 DeepSeek,远不像修改几行 API 代码那么简单——Crivello 后来在 X 上感慨:“整个过程最终比我们最初预想的多出了 100 倍工作量。”
很多人看到这里,可能会疑惑:既然都是大模型接口,为什么迁移会如此复杂?
原因在于,企业生产环境里的 AI 系统,实际上是一整套高度耦合的工程体系。模型背后连接着 Prompt 工程、自动化评测系统、用户反馈机制、监控与观测平台、路由调度逻辑、安全与合规流程等等。而更换模型之后,这些环节往往都需要重新适配。
Crivello 透露,团队进行了大量线上和线下评测,同时还进行了所谓的“Vibe Eval”——即由真人主观判断输出结果是否符合预期,验证 DeepSeek 是否真的能在真实生产环境中达到甚至超越 Anthropic 的表现。
“我们做了大量评估工作,然后逐步放量上线,观察对用户留存的影响,同时还需要不断调整 Prompt 以适配新模型。”
对了,有一点要注意,Lindy 并没有选择自行部署 DeepSeek。他们采用的是美国推理服务商 Atlas Cloud 提供的 DeepSeek V4 服务。这样既保留了成本优势,也避免了承担自建推理基础设施带来的额外复杂性。
因此从结果来看,Lindy 真正投入的成本并不只是模型迁移,而是一次底层 AI 基础设施升级。
根据 Crivello 透露的消息,目前 Lindy 最核心的业务之一是邮件处理。
系统需要阅读用户收件箱内容,理解上下文关系,并按照用户过往表达习惯自动生成回复草稿。而恰恰是在这些高频任务上,DeepSeek 给出了超出预期的表现——Crivello 表示:“我们在一些核心用例上看到了令人惊讶的性能提升。”
不过,他也强调 DeepSeek 并非全面领先。在复杂工作流自动化任务上,Anthropic 旗下 Claude Sonnet 目前仍然更强:“在工作流自动化方面,DeepSeek 还不如 Sonnet,但这并不是我们最核心的业务场景。”
所以,虽然 Lindy 已把生产流量全部迁移至 DeepSeek,但 Anthropic 并没有完全离开其技术栈:
首先,Lindy 内部员工仍在大量使用 Claude,因为 Anthropic 的 Max 订阅计划性价比依然很高。Crivello 坦言:“如果不是 Max 订阅计划,我们可能也会换掉 Claude。”
其次,在面对复杂任务时,Anthropic 可以充当“保险丝”的角色。此前有用户询问:未来 Lindy 是否可能重新回到 Anthropic?Crivello 给出的回答是:“当系统检测到任务失败时,我们大概率仍会升级调用 Opus。”不过,他同时强调:这种情况只占极小比例。
一句话概括:Anthropic 从过去 Lindy 的默认选择,变成了一个备用模型。但 Crivello 也补充道,未来 Anthropic 若是推出更强的新模型并大幅降低价格,他将重新成为其客户:“如果 Anthropic 下一代模型足够有竞争力,我们很可能会重新用回它的产品。”
截至目前,Crivello 并未公开具体节省金额,只说“节省了数百万美元”。
不过,对于一家推理成本已超过工资支出的AI创业公司来说,即便只是节省 30%-50% 的模型费用,这也是一笔可观的资金了。
而如果把 Lindy 的决定放到个行业背景下去观察,会发现它其实代表着一种越来越明显的趋势:过去几年,大模型市场基本由 OpenAI 和 Anthropic 主导,企业选择模型时更关注能力上限;但随着模型之间的差距不断缩小,成本开始成为新的决策因素。
来自 Vercel AI Gateway 的数据就显示,在 2026 年 5 月,仅一个月时间里,DeepSeek 在平台 Token 调用量中的占比便从不足 1% 飙升至 17%,但其对应的收入占比仅约 1%——原因很简单:DeepSeek 太便宜了。

于是,一种新的市场结构开始形成:
一边是 OpenAI、Anthropic 等提供最强性能、最高价格的旗舰模型;
另一边则是 DeepSeek、GLM、Kimi 等性能越来越接近、价格却低得多的开放权重模型。
对于 Lindy 这种每天消耗海量 Token 的公司来说,问题最终变得十分现实:如果能用更低成本获得 80%-90% 的效果,那么为剩余那部分能力支付数倍价格还划算吗?
对此,Crivello 给出的答案非常直接:
“对于像我们这样消耗大量 Token 的公司来说,100%必须要这么做,否则就是不负责任。”
在他看来,很多企业之所以还没有行动,只是因为它们更习惯相信那些知名品牌。但未来几年,或许企业将越来越不在乎模型来自哪里,而更在乎最终效果和成本。
参考链接:
https://runtimewire.com/article/lindy-deepseek-v4-anthropic-production-switch
https://thenewstack.io/lindy-deepseek-anthropic-switch/
本文来自微信公众号“CSDN”,整理:郑丽媛