บริษัทต่างๆ กำลังค้นพบว่าการสร้าง AI agent นั้นง่ายกว่าการสร้างระบบที่ทำให้ agent เหล่านั้นน่าเชื่อถือในการใช้งานจริง
ทีม AI ระดับองค์กรใช้เวลาสองปีที่ผ่านมาแข่งกันสร้าง agent แต่ตอนนี้พวกเขากำลังเผชิญกับปัญหาที่แตกต่างออกไป: agent เหล่านั้นแทบจะไม่มีตัวใดที่สามารถไว้วางใจได้ในระดับขนาดใหญ่

ช่องว่างนี้เริ่มปรากฏให้เห็นในตัวเลขสาธารณะ รายงานระบุว่า Prosus สร้าง agent ภายในองค์กรถึง 50,000 ตัว แต่มีเพียงประมาณ 5,000 ตัวที่ทำงานอยู่ในแต่ละวัน อัตราส่วน 10 ต่อ 1 นี้ได้กลายเป็นตัวชี้วัดที่เปิดเผยสถานะปัจจุบันของการผลิต AI ระดับองค์กร ประเด็นไม่ได้อยู่ที่ว่าบริษัทสามารถสร้าง agent ได้หรือไม่ แต่อยู่ที่ว่าพวกเขาสามารถระบุได้อย่างน่าเชื่อถือหรือไม่ว่า agent ตัวใดปลอดภัยสำหรับการนำไปใช้งาน ผลลัพธ์ใดน่าเชื่อถือ และจะเกิดอะไรขึ้นเมื่อระบบล้มเหลว
ความแตกต่างนี้มีความสำคัญ เพราะประสิทธิภาพที่ระบบอัตโนมัติสัญญาไว้นั้นตั้งอยู่บนสมมติฐานว่าระบบกำลังตัดสินใจได้อย่างถูกต้องตั้งแต่แรก
ช่องว่างระหว่างการทดลองและการผลิตจริง
สำหรับทีมวิศวกรหลายทีม คลื่นแรกของการนำ AI agent ไปใช้งานดำเนินไปอย่างรวดเร็ว copilot ภายในองค์กร ระบบอัตโนมัติสำหรับ workflow และระบบ multi-agent ปรากฏขึ้นในหลายแผนก การสาธิตใช้งานได้ดี โปรแกรมนำร่องดูมีแนวโน้มที่ดี
แต่สภาพแวดล้อมการผลิตจริงกลับบอกเล่าเรื่องราวที่แตกต่างออกไป
Antonio Bustamante ซีอีโอของ bem ใช้เวลาหลายปีในการทำงานด้านโครงสร้างพื้นฐาน AI สำหรับอุตสาหกรรมที่มีการกำกับดูแล ได้แก่ ประกันภัย การเงิน และการดูแลสุขภาพ จากมุมมองของเขา คอขวดที่ใหญ่ที่สุดของอุตสาหกรรมคือความรับผิดชอบ
เขาอ้างถึงเหตุการณ์ที่มีการพูดถึงกันอย่างกว้างขวางเกี่ยวกับ Upstream ซึ่ง AI agent เข้าร่วมช่อง Slack และทีมมนุษย์รายงานว่าเงียบไป 24 ชั่วโมงเพราะไม่มีใครรู้วิธีโต้ตอบกับมัน Bustamante โต้แย้งว่าความเงียบนั้นเปิดเผยบางสิ่งที่ลึกกว่านั้น: บริษัทต่างๆ ยังไม่ได้ออกแบบโมเดลการดำเนินงานสำหรับการทำงานร่วมกับ agent
รูปแบบเดียวกันนี้ปรากฏในการนำไปใช้งานระดับองค์กรขนาดใหญ่ ทีมสามารถสร้าง agent ได้หลายพันตัวอย่างรวดเร็ว แต่อัตราการใช้งานลดลงเมื่อระบบเหล่านั้นเผชิญกับข้อมูลการผลิตที่ยุ่งเหยิง ความเป็นเจ้าของที่ไม่ชัดเจน หรือผลลัพธ์ที่ไม่แน่นอน
นั่นคือเหตุผลที่บริษัทจำนวนมากในขณะนี้พบว่าตนเองมีความพยายามในการนำ AI agent ไปใช้งานอย่างกว้างขวาง แต่กลับมีการผลิต AI ระดับองค์กรจริงๆ ค่อนข้างน้อย
เหตุใดระบบ Multi-Agent จึงหยุดชะงักอยู่เรื่อยๆ
ส่วนหนึ่งของปัญหามาจากวิธีที่สภาพแวดล้อมองค์กรทำงานจริงๆ
ในการสาธิตที่ควบคุม ข้อมูลสะอาดและ workflow คาดเดาได้ องค์กรจริงแทบไม่ได้ดำเนินงานในลักษณะนั้น ระบบองค์กรส่วนใหญ่มีบันทึกที่กระจัดกระจาย รูปแบบที่ไม่สอดคล้องกัน บริบทที่ขาดหายไป และวิธีแก้ปัญหาการดำเนินงานที่สะสมมาหลายปี
Bustamante เปรียบเทียบสถานการณ์นี้กับสายการประกอบ รูปแบบการผลิตของ Henry Ford ประสบความสำเร็จเพราะข้อมูลนำเข้าถูกทำให้เป็นมาตรฐานก่อนที่การผลิตจะขยายขนาด ระบบ multi-agent เผชิญกับสภาพที่ตรงกันข้าม พวกมันถูกคาดหวังให้ทำงานบนข้อมูลองค์กรที่ไม่เป็นมาตรฐาน ซึ่งเป็นลักษณะเฉพาะของสภาพแวดล้อมองค์กรส่วนใหญ่
บางบริษัทได้ยอมรับภาระการดำเนินงานนี้อย่างเปิดเผยแล้ว ในการนำไปใช้งานหลายครั้ง องค์กรพบว่าตนเองต้องมอบหมายผู้ตรวจสอบที่เป็นมนุษย์เพื่อตรวจสอบผลลัพธ์ของ agent อย่างต่อเนื่อง ในตัวอย่างหนึ่งที่หมุนเวียนในอุตสาหกรรม รายงานระบุว่าระบบ multi-agent ต้องการคน 20 คนในการตรวจสอบผลลัพธ์เบื้องหลัง
นั่นเปลี่ยนแปลงเศรษฐศาสตร์ทั้งหมด ผลประโยชน์ที่สัญญาไว้จากการนำ autonomous agent ไปใช้งานจะหายไปหากมนุษย์ยังต้องตรวจสอบทุกการตัดสินใจด้วยตนเอง
การให้คะแนนความเชื่อมั่นและชั้นความรับผิดชอบที่ขาดหายไป
Bustamante โต้แย้งว่าการให้คะแนนความเชื่อมั่นได้กลายเป็นหนึ่งในองค์ประกอบที่ถูกมองข้ามมากที่สุดในการกำกับดูแล AI และการผลิตโครงสร้างพื้นฐาน AI หากไม่มีระบบที่สามารถวัดความไม่แน่นอนได้ ผู้ดำเนินการไม่มีวิธีที่น่าเชื่อถือในการระบุว่า agent ตัวใดพร้อมสำหรับการผลิตและตัวใดต้องการการแทรกแซง
ในทางปฏิบัติ การให้คะแนนความเชื่อมั่นหมายความมากกว่าการกำหนดเปอร์เซ็นต์ให้กับคำตอบ มันต้องการระบบที่สามารถอธิบายความไม่แน่นอน ติดตามการตัดสินใจกลับไปยังข้อมูลต้นทาง และสร้างจุดตรวจสอบที่มีมนุษย์อยู่ในวงจรก่อนที่ข้อผิดพลาดจะสะสมข้ามงาน workflow
ชั้นความรับผิดชอบของ AI นี้มีความสำคัญเป็นพิเศษในอุตสาหกรรมที่ความผิดพลาดมีผลทางการเงินหรือทางกฎหมาย การตรวจสอบการเคลมประกันที่ล้มเหลว ข้อผิดพลาดในการดึงข้อมูลด้านการดูแลสุขภาพ หรือความผิดพลาดในการประมวลผลทางการเงินอาจกลายเป็นเหตุการณ์ที่ก่อให้เกิดความรับผิด
Bustamante อธิบายวิทยานิพนธ์ที่กว้างขึ้นของ bem ว่า "แพลตฟอร์มการประสานงาน agent สำหรับสิ่งที่ไม่สามารถล้มเหลวได้" วลีนี้สะท้อนให้เห็นถึงการตระหนักรู้ที่เพิ่มขึ้นในอุตสาหกรรม: ความน่าเชื่อถือของ AI agent ขึ้นอยู่กับจำนวน agent ที่คุณนำไปใช้งานน้อยกว่า และขึ้นอยู่กับว่าคุณสามารถติดตาม ตรวจสอบ และแก้ไขการตัดสินใจเมื่อมีบางอย่างผิดพลาดได้หรือไม่
โครงสร้างพื้นฐานที่พร้อมสำหรับการผลิตมีลักษณะอย่างไร
ระยะต่อไปของ AI ระดับองค์กรอาจมีส่วนเกี่ยวข้องกับการสร้าง agent เพิ่มเติมน้อยลง และมีส่วนเกี่ยวข้องกับการสร้างระบบรอบๆ agent มากขึ้น
บริษัทที่มุ่งเน้นการใช้งาน AI agent ในระยะยาวต่างมองหาโครงสร้างพื้นฐานที่ยังคงยืดหยุ่นในระหว่างการดำเนินการ แน่วแน่ในผลลัพธ์ และสามารถติดตามได้ภายใต้เงื่อนไขความล้มเหลวมากขึ้นเรื่อยๆ ซึ่งรวมถึงการให้คะแนนความเชื่อมั่น เส้นทางการตรวจสอบ จุดแทรกแซง การทำให้ข้อมูลเป็นมาตรฐาน และระบบการกำกับดูแลที่ออกแบบมาสำหรับการผลิต ไม่ใช่การสาธิต
บริษัทที่ปิดช่องว่างระหว่างการทดลองระบบ multi-agent และการนำไปใช้งานในโลกจริงอาจไม่ใช่บริษัทที่มี agent มากที่สุด แต่อาจเป็นบริษัทที่สุดท้ายสร้างโครงสร้างพื้นฐานความรับผิดชอบที่องค์กรต่างๆ ข้ามไปในครั้งแรก








