企業はAIエージェントの構築が、それらのエージェントを本番環境で信頼できるものにするシステムの構築と比べて容易であることに気づいています。エンタープライズAIチーム企業はAIエージェントの構築が、それらのエージェントを本番環境で信頼できるものにするシステムの構築と比べて容易であることに気づいています。エンタープライズAIチーム

5万体のエージェントをデプロイした。その次は？企業が無視し続けるアカウンタビリティインフラの問題

出典：Techbullion

2026/05/30 14:28

13 分で読めます

AI$0.02899-10.30%

本コンテンツに関するご意見・ご感想は、[email protected]までご連絡ください。

AIエージェントの構築は、本番環境でそのエージェントを信頼できるものにするシステムの構築に比べれば容易だと、企業は気づき始めている。

エンタープライズAIチームはこの2年間、AIエージェントの構築に奔走してきた。しかし今、別の問題に直面している。それは、実際に大規模で信頼できるエージェントがほとんど存在しないという現実だ。

You Deployed 50,000 Agents. Now What? The Accountability Infrastructure Problem Enterprises Keep Ignoring

そのギャップは公開されている数字にも表れ始めている。Prosusは社内で50,000体のエージェントを構築したと報じられているが、毎日稼働しているのは約5,000体にすぎない。この10対1という比率は、エンタープライズAIの本番運用の現状を示す指標となっている。問題は企業がエージェントを作れるかどうかではない。どのエージェントが安全にデプロイできるか、どのアウトプットが信頼できるか、そしてシステムが失敗したときに何が起きるかを確実に判断できるかどうかだ。

この区別が重要なのは、自律システムが約束する効率性が、そもそもシステムが正しい判断を下していることを前提としているからだ。

実験から本番へのギャップ

多くのエンジニアリングチームにとって、AIエージェントデプロイの初期の波は急速に進んだ。社内コパイロット、ワークフロー自動化ツール、マルチエージェントシステムが各部門に広がった。デモはうまく機能し、パイロットプログラムも有望に見えた。

しかし、本番環境は別の現実を語っていた。

bemのCEOであるAntonio Bustamanteは、保険・金融・医療などの規制産業向けAIインフラに長年携わってきた。彼の視点では、業界最大のボトルネックは説明責任にある。

彼が指摘するのは、Upstreamに関する広く議論された事例だ。AIエージェントがSlackチャンネルに参加したところ、人間のチームは24時間沈黙したという。誰もそのエージェントとどう対話すればいいかわからなかったためだ。Bustamanteはこの沈黙がより深い問題を露わにしたと主張する。企業はエージェントと協働するための運用モデルを設計していないのだ。

同じパターンは大規模なエンタープライズデプロイの内部にも現れている。チームは数千のエージェントを素早く生成できるが、それらのシステムが乱雑な本番データや不明確なオーナーシップ、不確かなアウトプットに直面すると利用率が低下する。

だからこそ、多くの企業が今、広範なAIエージェントデプロイの取り組みを抱えながらも、実際のエンタープライズAIの本番運用はごく限られているという状況に陥っている。

マルチエージェントシステムが行き詰まる理由

問題の一因は、エンタープライズ環境が実際にどう機能するかにある。

管理されたデモ環境ではデータはクリーンで、ワークフローも予測可能だ。しかし実際の組織がそのように運営されることはほとんどない。ほとんどのエンタープライズシステムには、断片化した記録、一貫性のないフォーマット、欠落したコンテキスト、そして長年蓄積された運用上の回避策が含まれている。

Bustamanteはこの状況を組み立てラインに例える。ヘンリー・フォードの製造モデルが成功したのは、生産を拡大する前にインプットが標準化されていたからだ。マルチエージェントシステムはその逆の状況に直面している。標準化されていないエンタープライズデータ上で動作することを期待されているのだ。これはほとんどのエンタープライズ環境に共通する特性だ。

すでにこの運用上の負担を公に認めた企業もある。複数のデプロイ事例において、組織は継続的にエージェントのアウトプットをレビューするために人間のレビュアーを配置せざるを得なかった。業界で広まっているある事例では、マルチエージェントシステムが裏側で結果を検証するために20人を必要としたと報じられている。

これは経済性を根本から変えてしまう。人間がすべての判断を手動で確認し続ける必要があるなら、自律エージェントのデプロイによって約束された効果は消えてしまう。

信頼度スコアリングと欠落した説明責任レイヤー

Bustamanteは、信頼度スコアリングがAIガバナンスおよびAIインフラの本番運用において最も見落とされているコンポーネントの一つになっていると主張する。不確実性を測定できるシステムがなければ、オペレーターはどのエージェントが本番対応可能でどれが介入を要するかを確実に判断する方法を持てない。

実際には、信頼度スコアリングとは回答にパーセンテージを割り当てる以上のことを意味する。不確実性を説明し、判断をソースデータまで遡り、ワークフロー全体にエラーが連鎖する前に人間が介在するチェックポイントを設けられるシステムが必要だ。

AIの説明責任のこのレイヤーは、ミスが財務的または法的な結果をもたらす業界において特に重要になる。保険金請求レビューの失敗、医療データ抽出エラー、または金融処理上のミスは、法的責任事案になり得る。

Bustamanteはbemの大きなテーゼを「失敗が許されないもののためのエージェントオーケストレーションプラットフォーム」と表現する。この言葉は業界全体で広まりつつある認識を反映している。AIエージェントの信頼性は、何体のエージェントをデプロイするかよりも、何かが問題になったときに判断をトレース・監査・修正できるかどうかにかかっているのだ。