Ray 2.55 يضيف تحمل الأخطاء لعمليات نشر نماذج الذكاء الاصطناعي واسعة النطاق

Joerg Hiller 02 أبريل 2026 18:35

يتيح تحديث Ray Serve LLM من Anyscale تحمل أخطاء مجموعة DP لعمليات نشر vLLM WideEP، مما يقلل من مخاطر التوقف عن العمل لأنظمة الاستنتاج الموزعة للذكاء الاصطناعي.

Ray 2.55 يضيف تحمل الأخطاء لعمليات نشر نماذج الذكاء الاصطناعي واسعة النطاق

أصدرت Anyscale تحديثًا مهمًا لإطار عمل Ray Serve LLM الخاص بها والذي يعالج تحديًا تشغيليًا بالغ الأهمية للمؤسسات التي تدير أحمال عمل الاستنتاج للذكاء الاصطناعي واسعة النطاق. يقدم Ray 2.55 تحمل أخطاء مجموعة التوازي للبيانات (DP) لعمليات نشر التوازي الواسع للخبراء في vLLM - وهي ميزة تمنع أعطال GPU الفردية من إسقاط مجموعات خدمة النماذج بالكامل.

يستهدف التحديث نقطة ضعف محددة في خدمة نموذج خليط الخبراء (MoE). على عكس عمليات نشر النماذج التقليدية حيث تعمل كل نسخة بشكل مستقل، فإن معماريات MoE مثل DeepSeek-V3 تقسم طبقات الخبراء عبر مجموعات من وحدات GPU التي يجب أن تعمل بشكل جماعي. عندما تفشل وحدة GPU واحدة في هذه التكوينات، تصبح المجموعة بأكملها - والتي قد تمتد من 16 إلى 128 وحدة GPU - غير عاملة.

المشكلة التقنية

توزع نماذج MoE شبكات عصبية متخصصة "للخبراء" عبر وحدات GPU متعددة. على سبيل المثال، يحتوي DeepSeek-V3 على 256 خبيرًا لكل طبقة لكنه ينشط 8 فقط لكل رمز. يتم توجيه الرموز إلى أي وحدات GPU تحتفظ بالخبراء المطلوبين من خلال عمليات الإرسال والدمج التي تتطلب أن تكون جميع الرتب المشاركة سليمة.

في السابق، كان فشل رتبة واحدة يكسر هذه العمليات الجماعية. كانت الاستعلامات تستمر في التوجيه إلى النسخ الباقية في المجموعة المتأثرة، لكن كل طلب كان يفشل. تطلب الاسترداد إعادة تشغيل النظام بالكامل.

كيف يحل Ray المشكلة

يعامل Ray Serve LLM الآن كل مجموعة DP كوحدة ذرية من خلال جدولة المجموعة. عندما تفشل إحدى الرتب، يقوم النظام بوضع علامة على المجموعة بأكملها كغير سليمة، ويوقف توجيه حركة المرور إليها، ويفكك المجموعة الفاشلة، ويعيد بناءها كوحدة واحدة. تستمر المجموعات السليمة الأخرى في خدمة الطلبات طوال الوقت.

يتم شحن الميزة ممكّنة افتراضيًا في Ray 2.55. لا تتطلب عمليات نشر DP الحالية أي تغييرات في الكود - يتعامل الإطار مع الفحوصات الصحية على مستوى المجموعة والجدولة والاسترداد تلقائيًا.

يحترم التوسع التلقائي أيضًا هذه الحدود. تحدث عمليات التوسع والتقليص بزيادات بحجم المجموعة بدلاً من النسخ الفردية، مما يمنع إنشاء مجموعات جزئية لا يمكنها خدمة حركة المرور.

الآثار التشغيلية

يخلق التحديث اعتبارًا تصميميًا مهمًا: عرض المجموعة مقابل عدد المجموعات. وفقًا لمعايير vLLM التي استشهدت بها Anyscale، يظل الإنتاجية لكل GPU مستقرة نسبيًا عبر أحجام التوازي للخبراء البالغة 32 و72 و96. هذا يعني أن المشغلين يمكنهم الضبط نحو مجموعات أصغر دون التضحية بالكفاءة - والمجموعات الأصغر تعني نطاقات انفجار أصغر عند حدوث أعطال.

تشير Anyscale إلى أن هذه المرونة على مستوى التنسيق تكمل عمل المرونة على مستوى المحرك الذي يحدث في مجتمع vLLM. يعالج vLLM Elastic Expert Parallelism RFC كيف يمكن لوقت التشغيل تعديل الطوبولوجيا ديناميكيًا داخل المجموعة، بينما يدير Ray Serve LLM المجموعات الموجودة وتلقي حركة المرور.

بالنسبة للمؤسسات التي تنشر نماذج بنمط DeepSeek على نطاق واسع، فإن الفائدة العملية واضحة ومباشرة: تصبح أعطال GPU حوادث محلية بدلاً من انقطاعات على مستوى النظام. عينات الكود وخطوات إعادة الإنتاج متاحة على مستودع GitHub الخاص بـ Anyscale.

مصدر الصورة: Shutterstock

ray
vllm
البنية التحتية للذكاء الاصطناعي
التعلم الآلي
الحوسبة الموزعة

Ray 2.55 يضيف تحمل الأخطاء لعمليات نشر نماذج الذكاء الاصطناعي واسعة النطاق

Ray 2.55 يضيف تحمل الأخطاء لعمليات نشر نماذج الذكاء الاصطناعي واسعة النطاق

المشكلة التقنية

كيف يحل Ray المشكلة

الآثار التشغيلية

قد يعجبك أيضاً

يتشفى منتقدو ترامب بينما تهدد توقعات الطقس المتطرفة حفلة UFC في البيت الأبيض

ضوابط تصدير الذكاء الاصطناعي الأمريكية تضرب Anthropic بكتيب قواعد السلامة الخاص بها

كوانتستامب تربط اختراق بروتوكول هيومانيتي بقيمة 36 مليون دولار بجهات مشتبه في ارتباطها بكوريا الشمالية

الأخبار الرائجة

أخبار الحوسبة الكمية: الرئيس التنفيذي لـ Tether باولو أردوينو يقول إن المبالغة في الحديث عن تأثيرها على بيتكوين مبالغ فيها

٥٩٪ من مستخدمي تيك توك في نيجيريا يتابعون كرة القدم فيما تصل ٦٤٪ من النساء إلى الرياضة عبر تيك توك

أبرز الأسهم للمراقبة الأسبوع القادم: Nvidia وBroadcom وRocket Lab وAST SpaceMobile

ماركواين مولين يُشيد بترامب لأنه "لا يزال يعمل – في عيد ميلاده!"

مجلس الأمن القومي الأعلى الإيراني يُعدّ بياناً بشأن وقف إطلاق النار الأمريكي، وفق ما أفادت وسائل الإعلام الرسمية

أخبار مباشرة على مدار 24/7

أسعار الكريبتو