การอัปเดต Ray Serve LLM ของ Anyscale เปิดใช้งานความทนทานต่อความผิดพลาดของกลุ่ม DP สำหรับการปรับใช้ vLLM WideEP ลดความเสี่ยงของการหยุดทำงานสำหรับระบบ AI inference แบบกระจาย (Readการอัปเดต Ray Serve LLM ของ Anyscale เปิดใช้งานความทนทานต่อความผิดพลาดของกลุ่ม DP สำหรับการปรับใช้ vLLM WideEP ลดความเสี่ยงของการหยุดทำงานสำหรับระบบ AI inference แบบกระจาย (Read

Ray 2.55 เพิ่มความสามารถในการรับมือกับข้อผิดพลาดสำหรับการปรับใช้โมเดล AI ขนาดใหญ่

2026/04/03 02:35
1 นาทีในการอ่าน
หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ [email protected]

Ray 2.55 เพิ่มความทนทานต่อข้อผิดพลาดสำหรับการปรับใช้โมเดล AI ขนาดใหญ่

Joerg Hiller 02 เม.ย. 2026 18:35

การอัปเดต Ray Serve LLM ของ Anyscale เปิดใช้งานความทนทานต่อข้อผิดพลาดของกลุ่ม DP สำหรับการปรับใช้ vLLM WideEP ลดความเสี่ยงของการหยุดทำงานสำหรับระบบ AI inference แบบกระจาย

Ray 2.55 เพิ่มความทนทานต่อข้อผิดพลาดสำหรับการปรับใช้โมเดล AI ขนาดใหญ่

Anyscale ได้เปิดตัวการอัปเดตที่สำคัญสำหรับเฟรมเวิร์ก Ray Serve LLM ที่แก้ไขความท้าทายด้านการดำเนินงานที่สำคัญสำหรับองค์กรที่ใช้งาน AI inference ขนาดใหญ่ Ray 2.55 นำเสนอความทนทานต่อข้อผิดพลาดของกลุ่ม data parallel (DP) สำหรับการปรับใช้ vLLM Wide Expert Parallelism ซึ่งเป็นฟีเจอร์ที่ป้องกันไม่ให้ความล้มเหลวของ GPU เดียวทำให้คลัสเตอร์ที่ให้บริการโมเดลทั้งหมดหยุดทำงาน

การอัปเดตนี้มุ่งเป้าไปที่จุดปัญหาเฉพาะในการให้บริการโมเดล Mixture of Experts (MoE) ไม่เหมือนกับการปรับใช้โมเดลแบบดั้งเดิมที่แต่ละรีพลิกาทำงานอิสระ สถาปัตยกรรม MoE เช่น DeepSeek-V3 แบ่งชั้นผู้เชี่ยวชาญออกเป็นกลุ่มของ GPU ที่ต้องทำงานร่วมกัน เมื่อ GPU หนึ่งในการกำหนดค่าเหล่านี้ล้มเหลว กลุ่มทั้งหมดซึ่งอาจครอบคลุม 16 ถึง 128 GPU จะไม่สามารถทำงานได้

ปัญหาทางเทคนิค

โมเดล MoE กระจายเครือข่ายประสาทเทียม "ผู้เชี่ยวชาญ" เฉพาะทางไปยัง GPU หลายตัว ตัวอย่างเช่น DeepSeek-V3 มีผู้เชี่ยวชาญ 256 คนต่อชั้น แต่เปิดใช้งานเพียง 8 คนต่อโทเค็น โทเค็นจะถูกส่งไปยัง GPU ใดก็ตามที่เก็บผู้เชี่ยวชาญที่ต้องการผ่านการดำเนินการ dispatch และ combine ที่ต้องการให้ rank ที่เข้าร่วมทั้งหมดมีสุขภาพดี

ก่อนหน้านี้ ความล้มเหลวของ rank เดียวจะทำให้การดำเนินการร่วมกันเหล่านี้เสีย การสืบค้นจะยังคงส่งต่อไปยังรีพลิกาที่รอดชีวิตในกลุ่มที่ได้รับผลกระทบ แต่ทุกคำขอจะล้มเหลว การกู้คืนต้องการการรีสตาร์ทระบบทั้งหมด

วิธีที่ Ray แก้ไข

Ray Serve LLM ขณะนี้ถือว่าแต่ละกลุ่ม DP เป็นหน่วยอะตอมผ่าน gang scheduling เมื่อ rank หนึ่งล้มเหลว ระบบจะทำเครื่องหมายกลุ่มทั้งหมดว่าไม่แข็งแรง หยุดการส่งทราฟฟิกไปยังกลุ่มนั้น รื้อถอนกลุ่มที่ล้มเหลว และสร้างใหม่เป็นหน่วย กลุ่มที่แข็งแรงอื่นๆ ยังคงให้บริการคำขอตลอดเวลา

ฟีเจอร์นี้เปิดใช้งานโดยค่าเริ่มต้นใน Ray 2.55 การปรับใช้ DP ที่มีอยู่ไม่ต้องการการเปลี่ยนแปลงโค้ดใดๆ เฟรมเวิร์กจัดการการตรวจสอบสุขภาพระดับกลุ่ม การกำหนดเวลา และการกู้คืนโดยอัตโนมัติ

Autoscaling ยังเคารพขอบเขตเหล่านี้ด้วย การดำเนินการ Scale-up และ scale-down เกิดขึ้นในหน่วยขนาดกลุ่มมากกว่ารีพลิกาแต่ละตัว ป้องกันการสร้างกลุ่มบางส่วนที่ไม่สามารถให้บริการทราฟฟิกได้

ผลกระทบด้านการดำเนินงาน

การอัปเดตนี้สร้างข้อพิจารณาการออกแบบที่สำคัญ: ความกว้างของกลุ่มเทียบกับจำนวนกลุ่ม ตามเกณฑ์มาตรฐาน vLLM ที่อ้างโดย Anyscale ปริมาณงานต่อ GPU ยังคงค่อนข้างคงที่ในขนาดขนานของผู้เชี่ยวชาญที่ 32, 72 และ 96 ซึ่งหมายความว่าผู้ดำเนินการสามารถปรับไปยังกลุ่มที่เล็กลงโดยไม่สูญเสียประสิทธิภาพ และกลุ่มที่เล็กลงหมายถึงรัศมีการระเบิดที่เล็กลงเมื่อเกิดความล้มเหลว

Anyscale ระบุว่าความยืดหยุ่นระดับการจัดการนี้เสริมงานความยืดหยุ่นระดับเครื่องมือที่เกิดขึ้นในชุมชน vLLM vLLM Elastic Expert Parallelism RFC กล่าวถึงวิธีที่รันไทม์สามารถปรับโทโพโลยีภายในกลุ่มได้แบบไดนามิก ในขณะที่ Ray Serve LLM จัดการว่ากลุ่มใดมีอยู่และได้รับทราฟฟิก

สำหรับองค์กรที่ปรับใช้โมเดลสไตล์ DeepSeek ในระดับใหญ่ ประโยชน์ในทางปฏิบัติชัดเจน: ความล้มเหลวของ GPU กลายเป็นเหตุการณ์เฉพาะที่มากกว่าการหยุดทำงานทั้งระบบ ตัวอย่างโค้ดและขั้นตอนการทำซ้ำมีอยู่ใน GitHub repository ของ Anyscale

แหล่งที่มาของภาพ: Shutterstock
  • ray
  • vllm
  • โครงสร้างพื้นฐาน ai
  • machine learning
  • distributed computing
โอกาสทางการตลาด
Raydium โลโก้
ราคา Raydium(RAY)
$0,6127
$0,6127$0,6127
-1,24%
USD
Raydium (RAY) กราฟราคาสด

คอมโบฟุตบอลโลก: ลุ้นสูงสุด 200x

คอมโบฟุตบอลโลก: ลุ้นสูงสุด 200xคอมโบฟุตบอลโลก: ลุ้นสูงสุด 200x

รวมการแข่งขันฟุตบอลโลกได้สูงสุด 20 คู่ในคำสั่งเดียว

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ [email protected] เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

คุณอาจชอบเช่นกัน

Blend ขยายการผสานรวมกับ MeridianLink Mortgage และ MeridianLink Consumer และ DecisionLender

Blend ขยายการผสานรวมกับ MeridianLink Mortgage และ MeridianLink Consumer และ DecisionLender

ความร่วมมือครอบคลุมผลิตภัณฑ์สินเชื่อของ Blend ทั้งสินเชื่อจำนอง สินเชื่อหุ้นบ้าน วงเงินสินเชื่อ และผลิตภัณฑ์สินเชื่อผู้บริโภคครบวงจร เพื่อสนับสนุนประสบการณ์ดิจิทัลที่ทันสมัยและสอดคล้องกัน
แชร์
Globalfintechseries2026/06/17 16:25
ผู้นำ G7 หนุนหลังยูเครน วางแผนเพิ่มแรงกดดันต่อรัสเซีย

ผู้นำ G7 หนุนหลังยูเครน วางแผนเพิ่มแรงกดดันต่อรัสเซีย

ผู้นำยืนหยัดเป็นหนึ่งเดียวในการสนับสนุนยูเครน รวมถึงบูรณภาพแห่งดินแดน และตกลงที่จะเพิ่มมาตรการคว่ำบาตรรัสเซีย
แชร์
Free Malaysia Today2026/06/17 16:26
นักวิเคราะห์ถึงผู้ถือ XRP: ข่าวนี้จากอาบูดาบีเปลี่ยนทุกอย่าง

นักวิเคราะห์ถึงผู้ถือ XRP: ข่าวนี้จากอาบูดาบีเปลี่ยนทุกอย่าง

ผู้สนับสนุนคริปโตกำลังชี้ให้เห็นถึงตะวันออกกลางอีกครั้งในฐานะภูมิภาคที่การนำสินทรัพย์ดิจิทัลมาใช้อาจเร่งตัวขึ้น ข้อกล่าวอ้างที่ว่าสนามบินอาบูดาบีอาจในที่สุด
แชร์
Timestabloid2026/06/17 16:02

ลุ้นรับส่วนแบ่ง 50K USDT

ลุ้นรับส่วนแบ่ง 50K USDTลุ้นรับส่วนแบ่ง 50K USDT

ทำภารกิจ DEX+ ให้สำเร็จเพื่อปลดล็อกวงล้อแชมป์