过去两年,企业竞相将 AI 代理投入实际工作流程,从客户支持和后台操作到金融和合规中的决策密集型流程。如今,随着这些系统越来越多地整合到实际工作流程中,一个新问题正在浮现:代理可以检索信息,但当工作变得复杂、多步骤或高风险时,它们往往难以提供一致且可解释的推理。
今天,开源 AI 实验室 Sentient 正式推出 Arena,这是一个实时的生产级环境,数千名 AI 开发人员在此压力测试各种方法以解决企业最困难的推理问题。参与 Arena 初始阶段的首批成员包括 Founders Fund、Pantera 和 Franklin Templeton(管理资产超过 1.5 万亿美元)——标志着机构对在生产部署前对 AI 代理进行结构化评估的早期兴趣。
"随着公司希望在研究、运营和面向客户的工作流程中应用 AI 代理,问题不再是这些系统是否强大……而是它们在实际工作流程中是否可靠," Franklin Templeton Digital Assets 管理总监 Julian Love 表示。
Love 补充说,像 Arena 这样的结构化环境将有助于将有前景的想法与生产就绪的能力区分开来。
"AI 代理在企业内部不再是一项实验;它们被投入到涉及客户、资金和运营结果的工作流程中," Sentient 联合创始人 Himanshu Tyagi 表示。"这种转变改变了重要性。仅仅在演示中令人印象深刻是不够的。企业需要知道代理是否能在生产环境中可靠地进行推理,在那里失败代价高昂,信任脆弱。无论底层使用哪些模型或工具,他们都需要可比性、可重复性以及跟踪可靠性改进的方法。"
Arena 复制了企业工作流程的混乱现实:不完整的信息、长上下文、模糊的指令和相互冲突的来源。Arena 不是评分代理是否得到"正确答案",而是记录完整的推理轨迹,以便工程团队可以调试失败并随时间验证改进。
这为跨模型和堆栈评估推理提供了一个中立的、不依赖供应商的基准。通过关注生产级性能而非演示,Arena 创建了可验证的高风险代理能力,企业可以将其适应到自己的私有数据和内部工具中。
在首次挑战中,加入 Arena 的开发人员将专注于一个基础的企业障碍:文档推理。AI 代理将被要求对复杂的非结构化数据进行推理和计算——这类工作支撑着财务分析、根本原因调查、投资备忘录和客户服务。
初始阶段的其他参与者包括 alphaXiv、Fireworks、Openhands 和 OpenRouter,随着 Arena 在任务、行业和模型集成方面的扩展,预计会有更多参与者加入。
最近的调查强调了 Arena 所针对的差距。85% 的企业表示他们希望成为"代理型企业",近四分之三的企业计划部署自主代理,但只有不到四分之一的企业报告了成熟的治理,许多企业难以从试点规模化地过渡到生产。企业平均已经运行十几个代理,通常是孤立的,许多企业表示,如果没有更好的编排,添加更多代理会带来更多复杂性而非价值。
"在 OpenHands,我们总是很高兴支持使用代理解决实际问题的构建者," OpenHands 首席科学家兼联合创始人 Graham Neubig 表示。"我们很高兴支持使用 OpenHands Software Agent SDK 来应对这些复杂挑战的参与者。"
"Arena 正是推动开源 AI 向前发展的那种举措——它们允许研究人员公开竞争、迭代和创新。我们很高兴深化与 Sentient 的合作关系,并提供使实验更快、更易于扩展的基础设施," OpenRouter 联合创始人兼首席执行官 Alex Atallah 表示。
Arena 将在全球推出,邀请数千名 AI 开发人员申请首个专属队列,以旧金山为中心的现场活动将从 2026 年 3 月开始。
文章 Founders Fund, Pantera, 和 Franklin Templeton 加入 Sentient 的 'Arena' 以压力测试企业 AI 代理 首次出现在 Metaverse Post。


