Ray 2.55 fügt Fehlertoleranz für groß angelegte KI-Modellbereitstellungen hinzu

Joerg Hiller 02.04.2026 18:35

Anyscales Ray Serve LLM-Update ermöglicht DP-Gruppen-Fehlertoleranz für vLLM WideEP-Bereitstellungen und reduziert das Ausfallrisiko für verteilte KI-Inferenzsysteme.

Ray 2.55 fügt Fehlertoleranz für groß angelegte KI-Modellbereitstellungen hinzu

Anyscale hat ein bedeutendes Update für sein Ray Serve LLM-Framework veröffentlicht, das eine kritische operative Herausforderung für Organisationen angeht, die groß angelegte KI-Inferenz-Workloads betreiben. Ray 2.55 führt Datenparallel-(DP-)Gruppen-Fehlertoleranz für vLLM Wide Expert Parallelism-Bereitstellungen ein – eine Funktion, die verhindert, dass einzelne GPU-Ausfälle ganze Modell-Serving-Cluster lahmlegen.

Das Update zielt auf einen spezifischen Schwachpunkt beim Serving von Mixture of Experts (MoE)-Modellen ab. Im Gegensatz zu traditionellen Modellbereitstellungen, bei denen jede Replik unabhängig arbeitet, verteilen MoE-Architekturen wie DeepSeek-V3 Experten-Layer über GPU-Gruppen, die kollektiv arbeiten müssen. Wenn eine GPU in diesen Konfigurationen ausfällt, wird die gesamte Gruppe – potenziell 16 bis 128 GPUs umfassend – funktionsunfähig.

Das technische Problem

MoE-Modelle verteilen spezialisierte „Experten"-Neuronale-Netzwerke über mehrere GPUs. DeepSeek-V3 enthält beispielsweise 256 Experten pro Layer, aktiviert aber nur 8 pro Token. Tokens werden zu denjenigen GPUs geleitet, die die benötigten Experten halten, durch Dispatch- und Combine-Operationen, die erfordern, dass alle teilnehmenden Ränge funktionsfähig sind.

Zuvor würde ein einzelner Rang-Ausfall diese kollektiven Operationen unterbrechen. Anfragen würden weiterhin zu überlebenden Replikas in der betroffenen Gruppe geleitet, aber jede Anfrage würde fehlschlagen. Die Wiederherstellung erforderte einen Neustart des gesamten Systems.

Wie Ray es löst

Ray Serve LLM behandelt nun jede DP-Gruppe als atomare Einheit durch Gang-Scheduling. Wenn ein Rang ausfällt, markiert das System die gesamte Gruppe als ungesund, stoppt die Traffic-Weiterleitung dorthin, baut die fehlerhafte Gruppe ab und baut sie als Einheit wieder auf. Andere gesunde Gruppen bedienen währenddessen weiterhin Anfragen.

Die Funktion ist standardmäßig in Ray 2.55 aktiviert. Bestehende DP-Bereitstellungen erfordern keine Code-Änderungen – das Framework übernimmt Gesundheitsprüfungen auf Gruppenebene, Scheduling und Wiederherstellung automatisch.

Die automatische Skalierung respektiert ebenfalls diese Grenzen. Scale-up- und Scale-down-Operationen erfolgen in gruppengroßen Schritten statt einzelner Replikas, wodurch die Erstellung von Teilgruppen verhindert wird, die keinen Traffic bedienen können.

Operative Auswirkungen

Das Update schafft eine wichtige Design-Überlegung: Gruppenbreite versus Anzahl der Gruppen. Laut vLLM-Benchmarks, die von Anyscale zitiert werden, bleibt der Durchsatz pro GPU über Experten-Parallelgrößen von 32, 72 und 96 relativ stabil. Das bedeutet, dass Betreiber auf kleinere Gruppen optimieren können, ohne die Effizienz zu opfern – und kleinere Gruppen bedeuten kleinere Auswirkungsradien, wenn Ausfälle auftreten.

Anyscale merkt an, dass diese Orchestrierungs-Ebenen-Resilienz die Engine-Ebenen-Elastizitätsarbeit ergänzt, die in der vLLM-Community stattfindet. Der vLLM Elastic Expert Parallelism RFC befasst sich damit, wie die Laufzeit die Topologie innerhalb einer Gruppe dynamisch anpassen kann, während Ray Serve LLM verwaltet, welche Gruppen existieren und Traffic erhalten.

Für Organisationen, die DeepSeek-Modelle im großen Maßstab einsetzen, ist der praktische Nutzen eindeutig: GPU-Ausfälle werden zu lokalisierten Vorfällen statt systemweiten Ausfällen. Code-Beispiele und Reproduktionsschritte sind im GitHub-Repository von Anyscale verfügbar.

Bildquelle: Shutterstock

ray
vllm
KI-Infrastruktur
maschinelles Lernen
verteiltes Computing

Ray 2.55 fügt Fehlertoleranz für groß angelegte KI-Modell-Deployments hinzu

Ray 2.55 fügt Fehlertoleranz für groß angelegte KI-Modellbereitstellungen hinzu

Das technische Problem

Wie Ray es löst

Operative Auswirkungen

Das könnte Ihnen auch gefallen

Ripple-CEO schlägt zurück gegen Avalanche-Gründer: Schön zu wissen, dass wir mietfrei in deinem Kopf leben

Dow Jones Futures stürzen ab, während volatiler Angst-Hoffnung-Zyklus Marktturbulenzen beschleunigt

Krypto-News: JP Morgan setzt Bitcoin-Ziel von 170.000 $, warum Smart-Money zu diesem aufstrebenden Nutzungstoken wechselt

Trendnachrichten

Trumps Kabinetts-Umbildung läuft die Zeit davon, während die republikanische Senatsmehrheit in der Schwebe hängt

Der Rückgang ist nicht beängstigend – Hier sind 5 Aktien, die ein Experte sich diesen April schnappt

Pam Bondi soll vor Trumps Primetime-Ansprache von ihrer Entlassung erfahren haben

Google springt mit Gemma 4 zurück ins Open Source AI-Rennen

Disgraced Comedian kehrt nach Eingeständnis sexuellen Fehlverhaltens in den Mainstream zurück

24/7 Live-Nachrichten

Kryptopreise