
Sentient实验室推出Arena平台,面向全球AI开发者提供生产级环境,用于压力测试和迭代企业级AI智能体的推理可靠性。平台聚焦文档推理等高风险真实工作流场景,强调可解释、可复现、跨模型的结构化评测,获富兰克林邓普顿、Pantera等机构支持,旨在解决企业智能体从试点迈向规模化部署的信任与治理瓶颈。

过去两年里,企业一直在加速把 AI 智能体引入真实工作流程:从客服、后台运营,到金融与合规等需要高强度决策的流程。随着这些系统越来越多地被嵌入实际业务,一个新问题正在浮现:智能体能够检索信息,但当工作变得“脏”、多步骤、或高风险时,它们往往难以给出稳定、可解释、可复现的推理过程。
今天,开源 AI 实验室 Sentient 正式推出 Arena——一个实时、可投入生产级使用的环境,面向全球数千名 AI 开发者,用来对各种企业最难的推理问题进行压力测试与竞赛式迭代。Arena 初始阶段的首批参与阵容包括 Founders Fund、Pantera,以及管理资产规模超过 1.5 万亿美元的 Franklin Templeton(富兰克林邓普顿)——这也释放出一个信号:机构正在对“在上线部署前,对 AI 智能体进行结构化评测”产生早期、明确的兴趣。
“当企业把 AI 智能体应用到研究、运营和面向客户的工作流时,问题已经不再是这些系统是否足够强大……而是它们在真实工作流中是否可靠。”Franklin Templeton Digital Assets(富兰克林邓普顿数字资产)管理合伙人 Julian Love 表示。Love 补充说,像 Arena 这样的结构化环境,将帮助行业把“有潜力的想法”和“真正能用于生产的能力”区分开来。
Sentient 联合创始人 Himanshu Tyagi 表示:“AI 智能体在企业内部不再只是实验;它们正在进入会触及客户、资金和运营结果的关键流程。这种变化改变了评判标准。系统在演示里看起来很惊艳还不够。企业需要知道:在生产环境里,当失败代价很高、信任又非常脆弱时,智能体是否还能稳定地推理。企业需要可比性、可重复性,以及一种不依赖底层模型或工具栈、能够长期跟踪可靠性提升的方法。”
Arena 模拟了企业工作流的真实混乱:信息不完整、上下文很长、指令含糊、来源相互冲突。Arena 不只评判智能体是否给出“正确答案”,而是记录完整的推理轨迹(reasoning trace),以便工程团队定位失败原因,并长期验证改进是否有效。
这为跨模型、跨技术栈的推理评估提供了一个中立、与厂商无关的基准(vendor-agnostic benchmark)。Arena 强调生产级表现而非 Demo 表现,从而形成可验证、适用于高风险场景的智能体能力,企业也可以把这些能力迁移到自己的私有数据和内部工具上。
在第一项挑战中,加入 Arena 的开发者将聚焦一个企业级基础难题:文档推理(document reasoning)。AI 智能体需要对复杂、非结构化数据进行推理与计算——这类工作是金融分析、根因调查、投资备忘录撰写、客户服务等场景的底层支撑。
初始阶段的其他参与方还包括 alphaXiv、Fireworks、OpenHands、OpenRouter 等;随着 Arena 在任务、行业与模型集成上的扩展,预计还会有更多参与者加入。
近期调研也凸显了 Arena 试图解决的缺口:85% 的企业表示希望成为“智能体企业(agentic enterprises)”,近四分之三计划部署自治智能体,但真正拥有成熟治理体系的不到四分之一;许多企业难以把试点扩展到大规模生产部署。企业平均已经在运行约十几个智能体,通常分散在各自孤立的场景中;不少企业认为,如果没有更好的编排与协同能力,继续增加智能体只会带来复杂度上升,价值反而下降。
“在 OpenHands,我们一直很愿意支持开发者使用智能体解决真实、实用的问题。”OpenHands 首席科学家兼联合创始人 Graham Neubig 表示,“我们也很高兴支持参赛者使用 OpenHands Software Agent SDK 来应对这些复杂挑战。”
OpenRouter 联合创始人兼 CEO Alex Atallah 表示:“Arena 正是那种能推动开源 AI 向前的计划——它让研究者可以在公开环境中竞争、迭代和创新。我们很期待与 Sentient 加深合作,并提供基础设施,让实验更快、更容易规模化。”
Arena 将面向全球启动,邀请数千名 AI 开发者申请加入第一期限定队列,并从 2026 年 3 月起在旧金山举行线下活动。
Franklin Templeton Digital Assets 管理合伙人 Julian Love 表示:“当企业把 AI 智能体应用到研究、运营和客户工作流中时,问题已经不再是这些系统是否强大、或是否能生成一个答案,而是它们在真实工作流里是否可靠。像 Arena 这样的沙盒环境,让智能体在真实、复杂的工作流里被测试,且其推理过程可被检查,这将帮助生态把有前景的想法与可生产落地的能力区分开来,并提升对这项技术如何被集成与规模化的信心。”
OpenRouter 联合创始人兼 CEO Alex Atallah 表示:“Arena 正是推动开源 AI 前进的那类计划——它让研究者可以在公开场域竞争、迭代、创新。我们很期待与 Sentient 加深合作,并提供基础设施,让实验更快、更容易规模化!”
OpenHands 首席科学家兼联合创始人 Graham Neubig 表示:“在 OpenHands,我们一直很愿意支持开发者使用智能体解决真实、实用的问题。我们也很高兴支持参赛者使用 OpenHands Software Agent SDK 来应对这些复杂挑战。”
Sentient Labs 是一家领先的技术研究与产品组织,致力于推动开源 AI 的发展。作为 Sentient Foundation 旗下的创新引擎,Sentient Labs 在 AI 推理、对齐与智能体协作等方向开展前沿研究。Sentient 是 ROMA 等高性能框架以及 Dobby 等开源模型的核心研发方。Sentient 的使命是让开源 AI 从“实验”走向“必需”。通过提供构建强大、可组合智能体系统的基础设施,Sentient 让开发者能够对开源工具实现商业化,并达到企业级可用性。Sentient 致力于推动开源成为全球关键任务 AI 运营的默认标准。