يتيح تحديث Ray Serve LLM من Anyscale تحمل أخطاء مجموعة DP لعمليات نشر vLLM WideEP، مما يقلل من مخاطر التوقف عن العمل لأنظمة الاستدلال الموزعة للذكاء الاصطناعي. (اقرأيتيح تحديث Ray Serve LLM من Anyscale تحمل أخطاء مجموعة DP لعمليات نشر vLLM WideEP، مما يقلل من مخاطر التوقف عن العمل لأنظمة الاستدلال الموزعة للذكاء الاصطناعي. (اقرأ

Ray 2.55 يضيف تحمل الأخطاء لعمليات نشر نماذج الذكاء الاصطناعي واسعة النطاق

2026/04/03 02:35
3 دقيقة قراءة
للحصول على ملاحظات أو استفسارات بشأن هذا المحتوى، يرجى التواصل معنا على [email protected]

Ray 2.55 يضيف تحمل الأخطاء لعمليات نشر نماذج الذكاء الاصطناعي واسعة النطاق

Joerg Hiller 02 أبريل 2026 18:35

يتيح تحديث Ray Serve LLM من Anyscale تحمل أخطاء مجموعة DP لعمليات نشر vLLM WideEP، مما يقلل من مخاطر التوقف عن العمل لأنظمة الاستنتاج الموزعة للذكاء الاصطناعي.

Ray 2.55 يضيف تحمل الأخطاء لعمليات نشر نماذج الذكاء الاصطناعي واسعة النطاق

أصدرت Anyscale تحديثًا مهمًا لإطار عمل Ray Serve LLM الخاص بها والذي يعالج تحديًا تشغيليًا بالغ الأهمية للمؤسسات التي تدير أحمال عمل الاستنتاج للذكاء الاصطناعي واسعة النطاق. يقدم Ray 2.55 تحمل أخطاء مجموعة التوازي للبيانات (DP) لعمليات نشر التوازي الواسع للخبراء في vLLM - وهي ميزة تمنع أعطال GPU الفردية من إسقاط مجموعات خدمة النماذج بالكامل.

يستهدف التحديث نقطة ضعف محددة في خدمة نموذج خليط الخبراء (MoE). على عكس عمليات نشر النماذج التقليدية حيث تعمل كل نسخة بشكل مستقل، فإن معماريات MoE مثل DeepSeek-V3 تقسم طبقات الخبراء عبر مجموعات من وحدات GPU التي يجب أن تعمل بشكل جماعي. عندما تفشل وحدة GPU واحدة في هذه التكوينات، تصبح المجموعة بأكملها - والتي قد تمتد من 16 إلى 128 وحدة GPU - غير عاملة.

المشكلة التقنية

توزع نماذج MoE شبكات عصبية متخصصة "للخبراء" عبر وحدات GPU متعددة. على سبيل المثال، يحتوي DeepSeek-V3 على 256 خبيرًا لكل طبقة لكنه ينشط 8 فقط لكل رمز. يتم توجيه الرموز إلى أي وحدات GPU تحتفظ بالخبراء المطلوبين من خلال عمليات الإرسال والدمج التي تتطلب أن تكون جميع الرتب المشاركة سليمة.

في السابق، كان فشل رتبة واحدة يكسر هذه العمليات الجماعية. كانت الاستعلامات تستمر في التوجيه إلى النسخ الباقية في المجموعة المتأثرة، لكن كل طلب كان يفشل. تطلب الاسترداد إعادة تشغيل النظام بالكامل.

كيف يحل Ray المشكلة

يعامل Ray Serve LLM الآن كل مجموعة DP كوحدة ذرية من خلال جدولة المجموعة. عندما تفشل إحدى الرتب، يقوم النظام بوضع علامة على المجموعة بأكملها كغير سليمة، ويوقف توجيه حركة المرور إليها، ويفكك المجموعة الفاشلة، ويعيد بناءها كوحدة واحدة. تستمر المجموعات السليمة الأخرى في خدمة الطلبات طوال الوقت.

يتم شحن الميزة ممكّنة افتراضيًا في Ray 2.55. لا تتطلب عمليات نشر DP الحالية أي تغييرات في الكود - يتعامل الإطار مع الفحوصات الصحية على مستوى المجموعة والجدولة والاسترداد تلقائيًا.

يحترم التوسع التلقائي أيضًا هذه الحدود. تحدث عمليات التوسع والتقليص بزيادات بحجم المجموعة بدلاً من النسخ الفردية، مما يمنع إنشاء مجموعات جزئية لا يمكنها خدمة حركة المرور.

الآثار التشغيلية

يخلق التحديث اعتبارًا تصميميًا مهمًا: عرض المجموعة مقابل عدد المجموعات. وفقًا لمعايير vLLM التي استشهدت بها Anyscale، يظل الإنتاجية لكل GPU مستقرة نسبيًا عبر أحجام التوازي للخبراء البالغة 32 و72 و96. هذا يعني أن المشغلين يمكنهم الضبط نحو مجموعات أصغر دون التضحية بالكفاءة - والمجموعات الأصغر تعني نطاقات انفجار أصغر عند حدوث أعطال.

تشير Anyscale إلى أن هذه المرونة على مستوى التنسيق تكمل عمل المرونة على مستوى المحرك الذي يحدث في مجتمع vLLM. يعالج vLLM Elastic Expert Parallelism RFC كيف يمكن لوقت التشغيل تعديل الطوبولوجيا ديناميكيًا داخل المجموعة، بينما يدير Ray Serve LLM المجموعات الموجودة وتلقي حركة المرور.

بالنسبة للمؤسسات التي تنشر نماذج بنمط DeepSeek على نطاق واسع، فإن الفائدة العملية واضحة ومباشرة: تصبح أعطال GPU حوادث محلية بدلاً من انقطاعات على مستوى النظام. عينات الكود وخطوات إعادة الإنتاج متاحة على مستودع GitHub الخاص بـ Anyscale.

مصدر الصورة: Shutterstock
  • ray
  • vllm
  • البنية التحتية للذكاء الاصطناعي
  • التعلم الآلي
  • الحوسبة الموزعة
فرصة السوق
شعار Raydium
Raydium السعر(RAY)
$0.6154
$0.6154$0.6154
-0.45%
USD
مخطط أسعار Raydium (RAY) المباشر
إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني [email protected] لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.

Trade GOLD, Share 1,000,000 USDT

Trade GOLD, Share 1,000,000 USDTTrade GOLD, Share 1,000,000 USDT

0 fees, up to 1,000x leverage, deep liquidity