Anyscale का Ray Serve LLM अपडेट vLLM WideEP डिप्लॉयमेंट के लिए DP ग्रुप फॉल्ट टॉलरेंस को सक्षम करता है, जो डिस्ट्रिब्यूटेड AI इंफरेंस सिस्टम के लिए डाउनटाइम जोखिम को कम करता है। (ReadAnyscale का Ray Serve LLM अपडेट vLLM WideEP डिप्लॉयमेंट के लिए DP ग्रुप फॉल्ट टॉलरेंस को सक्षम करता है, जो डिस्ट्रिब्यूटेड AI इंफरेंस सिस्टम के लिए डाउनटाइम जोखिम को कम करता है। (Read

Ray 2.55 बड़े पैमाने पर AI मॉडल तैनाती के लिए फॉल्ट टॉलरेंस जोड़ता है

2026/04/03 02:35
4 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया [email protected] पर हमसे संपर्क करें

Ray 2.55 बड़े पैमाने पर AI मॉडल डिप्लॉयमेंट के लिए फॉल्ट टॉलरेंस जोड़ता है

Joerg Hiller Apr 02, 2026 18:35

Anyscale का Ray Serve LLM अपडेट vLLM WideEP डिप्लॉयमेंट के लिए DP ग्रुप फॉल्ट टॉलरेंस सक्षम करता है, जो डिस्ट्रिब्यूटेड AI इंफरेंस सिस्टम के लिए डाउनटाइम जोखिम को कम करता है।

Ray 2.55 बड़े पैमाने पर AI मॉडल डिप्लॉयमेंट के लिए फॉल्ट टॉलरेंस जोड़ता है

Anyscale ने अपने Ray Serve LLM फ्रेमवर्क के लिए एक महत्वपूर्ण अपडेट जारी किया है जो बड़े पैमाने पर AI इंफरेंस वर्कलोड चलाने वाले संगठनों के लिए एक महत्वपूर्ण परिचालन चुनौती को संबोधित करता है। Ray 2.55 vLLM Wide Expert Parallelism डिप्लॉयमेंट के लिए डेटा पैरेलल (DP) ग्रुप फॉल्ट टॉलरेंस पेश करता है—एक फीचर जो एकल GPU विफलताओं को पूरे मॉडल सर्विंग क्लस्टर को बंद करने से रोकता है।

यह अपडेट Mixture of Experts (MoE) मॉडल सर्विंग में एक विशिष्ट समस्या को लक्षित करता है। पारंपरिक मॉडल डिप्लॉयमेंट के विपरीत जहां प्रत्येक रेप्लिका स्वतंत्र रूप से काम करता है, DeepSeek-V3 जैसी MoE आर्किटेक्चर एक्सपर्ट लेयर्स को GPU के समूहों में शार्ड करती हैं जिन्हें सामूहिक रूप से काम करना चाहिए। जब इन कॉन्फ़िगरेशन में एक GPU विफल होता है, तो पूरा समूह—संभावित रूप से 16 से 128 GPUs तक फैला हुआ—गैर-परिचालित हो जाता है।

तकनीकी समस्या

MoE मॉडल विशेष "एक्सपर्ट" न्यूरल नेटवर्क को कई GPUs में वितरित करते हैं। उदाहरण के लिए, DeepSeek-V3 में प्रति लेयर 256 एक्सपर्ट होते हैं लेकिन प्रति टोकन केवल 8 को सक्रिय करता है। टोकन को उन GPUs पर रूट किया जाता है जो आवश्यक एक्सपर्ट को डिस्पैच और कंबाइन ऑपरेशन के माध्यम से रखते हैं जिसमें सभी भाग लेने वाले रैंक को स्वस्थ होना आवश्यक है।

पहले, एक रैंक विफलता इन सामूहिक ऑपरेशन को तोड़ देती थी। क्वेरी प्रभावित समूह में जीवित रेप्लिका को रूट करना जारी रखतीं, लेकिन हर अनुरोध विफल हो जाता था। रिकवरी के लिए पूरे सिस्टम को पुनरारंभ करना आवश्यक था।

Ray इसे कैसे हल करता है

Ray Serve LLM अब गैंग शेड्यूलिंग के माध्यम से प्रत्येक DP ग्रुप को एक परमाणु इकाई के रूप में मानता है। जब एक रैंक विफल होता है, तो सिस्टम पूरे समूह को अस्वस्थ चिह्नित करता है, उस पर ट्रैफ़िक रूटिंग बंद कर देता है, विफल समूह को नष्ट कर देता है, और इसे एक इकाई के रूप में पुनर्निर्माण करता है। अन्य स्वस्थ समूह पूरे समय अनुरोध सेवा करना जारी रखते हैं।

यह फीचर Ray 2.55 में डिफ़ॉल्ट रूप से सक्षम आता है। मौजूदा DP डिप्लॉयमेंट को कोड परिवर्तन की आवश्यकता नहीं है—फ्रेमवर्क स्वचालित रूप से ग्रुप-स्तर हेल्थ चेक, शेड्यूलिंग और रिकवरी को संभालता है।

ऑटोस्केलिंग भी इन सीमाओं का सम्मान करती है। स्केल-अप और स्केल-डाउन ऑपरेशन व्यक्तिगत रेप्लिका के बजाय ग्रुप-आकार की वृद्धि में होते हैं, आंशिक समूहों के निर्माण को रोकते हैं जो ट्रैफ़िक सेवा नहीं कर सकते।

परिचालन निहितार्थ

यह अपडेट एक महत्वपूर्ण डिज़ाइन विचार बनाता है: ग्रुप चौड़ाई बनाम समूहों की संख्या। Anyscale द्वारा उद्धृत vLLM बेंचमार्क के अनुसार, प्रति GPU थ्रूपुट 32, 72, और 96 के एक्सपर्ट पैरेलल आकारों में अपेक्षाकृत स्थिर रहता है। इसका मतलब है कि ऑपरेटर दक्षता का त्याग किए बिना छोटे समूहों की ओर ट्यून कर सकते हैं—और छोटे समूहों का मतलब है विफलताओं के समय छोटे ब्लास्ट रेडियाई।

Anyscale नोट करता है कि यह ऑर्केस्ट्रेशन-स्तर की लचीलापन vLLM समुदाय में हो रहे इंजन-स्तर की लोच कार्य को पूरक करती है। vLLM Elastic Expert Parallelism RFC संबोधित करता है कि रनटाइम एक समूह के भीतर टोपोलॉजी को गतिशील रूप से कैसे समायोजित कर सकता है, जबकि Ray Serve LLM प्रबंधित करता है कि कौन से समूह मौजूद हैं और ट्रैफ़िक प्राप्त करते हैं।

बड़े पैमाने पर DeepSeek-शैली के मॉडल तैनात करने वाले संगठनों के लिए, व्यावहारिक लाभ सीधा है: GPU विफलताएं सिस्टम-व्यापी आउटेज के बजाय स्थानीयकृत घटनाएं बन जाती हैं। कोड नमूने और पुनरुत्पादन चरण Anyscale के GitHub रिपॉजिटरी पर उपलब्ध हैं।

छवि स्रोत: Shutterstock
  • ray
  • vllm
  • ai infrastructure
  • machine learning
  • distributed computing
मार्केट अवसर
Raydium लोगो
Raydium मूल्य(RAY)
$0.6548
$0.6548$0.6548
-0.04%
USD
Raydium (RAY) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए [email protected] से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

OKX यूरोप ने X-Perps की घोषणा की, एक विनियमित परपेचुअल-स्टाइल क्रिप्टो उत्पाद

OKX यूरोप ने X-Perps की घोषणा की, एक विनियमित परपेचुअल-स्टाइल क्रिप्टो उत्पाद

OKX यूरोप के CEO एराल्ड घूस ने X-Perps पेश किया, जो एक विनियमित परपेचुअल-स्टाइल क्रिप्टो डेरिवेटिव उत्पाद है जिसका उद्देश्य यूरोप में पहुंच का विस्तार करना है।
शेयर करें
coinlineup2026/04/15 20:21
प्री-मार्केट अपडेट: ईरान शांति वार्ता में प्रगति के साथ S&P 500 फ्यूचर्स फ्लैट, Nasdaq की नजर 11वीं सीधी बढ़त पर

प्री-मार्केट अपडेट: ईरान शांति वार्ता में प्रगति के साथ S&P 500 फ्यूचर्स फ्लैट, Nasdaq की नजर 11वीं सीधी बढ़त पर

संक्षेप में स्टॉक फ्यूचर्स बुधवार को मंगलवार की मजबूत रैली के बाद सपाट हैं Nasdaq लगातार 10 सत्रों से बढ़ रहा है, जो नवंबर 2021 के बाद से इसकी सबसे लंबी लकीर है S&P
शेयर करें
Coincentral2026/04/15 20:34
ट्रंप को हटाई गई यीशु की तस्वीर के लिए 'अत्यधिक' प्रशंसा से बल मिलेगा: विश्लेषण

ट्रंप को हटाई गई यीशु की तस्वीर के लिए 'अत्यधिक' प्रशंसा से बल मिलेगा: विश्लेषण

राष्ट्रपति डोनाल्ड ट्रंप द्वारा ट्रुथ सोशल से खुद को यीशु मसीह के रूप में दर्शाने वाली एआई-जनित छवि को हटाने से केवल अस्थायी रूप से उनके सबसे
शेयर करें
Rawstory2026/04/15 20:43

24/7 लाइव न्यूज़

अधिक

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!