Ray 2.55 fügt Fehlertoleranz für groß angelegte KI-Modellbereitstellungen hinzu
Joerg Hiller 02.04.2026 18:35
Anyscales Ray Serve LLM-Update ermöglicht DP-Gruppen-Fehlertoleranz für vLLM WideEP-Bereitstellungen und reduziert das Ausfallrisiko für verteilte KI-Inferenzsysteme.
Anyscale hat ein bedeutendes Update für sein Ray Serve LLM-Framework veröffentlicht, das eine kritische operative Herausforderung für Organisationen angeht, die groß angelegte KI-Inferenz-Workloads betreiben. Ray 2.55 führt Datenparallel-(DP-)Gruppen-Fehlertoleranz für vLLM Wide Expert Parallelism-Bereitstellungen ein – eine Funktion, die verhindert, dass einzelne GPU-Ausfälle ganze Modell-Serving-Cluster lahmlegen.
Das Update zielt auf einen spezifischen Schwachpunkt beim Serving von Mixture of Experts (MoE)-Modellen ab. Im Gegensatz zu traditionellen Modellbereitstellungen, bei denen jede Replik unabhängig arbeitet, verteilen MoE-Architekturen wie DeepSeek-V3 Experten-Layer über GPU-Gruppen, die kollektiv arbeiten müssen. Wenn eine GPU in diesen Konfigurationen ausfällt, wird die gesamte Gruppe – potenziell 16 bis 128 GPUs umfassend – funktionsunfähig.
Das technische Problem
MoE-Modelle verteilen spezialisierte „Experten"-Neuronale-Netzwerke über mehrere GPUs. DeepSeek-V3 enthält beispielsweise 256 Experten pro Layer, aktiviert aber nur 8 pro Token. Tokens werden zu denjenigen GPUs geleitet, die die benötigten Experten halten, durch Dispatch- und Combine-Operationen, die erfordern, dass alle teilnehmenden Ränge funktionsfähig sind.
Zuvor würde ein einzelner Rang-Ausfall diese kollektiven Operationen unterbrechen. Anfragen würden weiterhin zu überlebenden Replikas in der betroffenen Gruppe geleitet, aber jede Anfrage würde fehlschlagen. Die Wiederherstellung erforderte einen Neustart des gesamten Systems.
Wie Ray es löst
Ray Serve LLM behandelt nun jede DP-Gruppe als atomare Einheit durch Gang-Scheduling. Wenn ein Rang ausfällt, markiert das System die gesamte Gruppe als ungesund, stoppt die Traffic-Weiterleitung dorthin, baut die fehlerhafte Gruppe ab und baut sie als Einheit wieder auf. Andere gesunde Gruppen bedienen währenddessen weiterhin Anfragen.
Die Funktion ist standardmäßig in Ray 2.55 aktiviert. Bestehende DP-Bereitstellungen erfordern keine Code-Änderungen – das Framework übernimmt Gesundheitsprüfungen auf Gruppenebene, Scheduling und Wiederherstellung automatisch.
Die automatische Skalierung respektiert ebenfalls diese Grenzen. Scale-up- und Scale-down-Operationen erfolgen in gruppengroßen Schritten statt einzelner Replikas, wodurch die Erstellung von Teilgruppen verhindert wird, die keinen Traffic bedienen können.
Operative Auswirkungen
Das Update schafft eine wichtige Design-Überlegung: Gruppenbreite versus Anzahl der Gruppen. Laut vLLM-Benchmarks, die von Anyscale zitiert werden, bleibt der Durchsatz pro GPU über Experten-Parallelgrößen von 32, 72 und 96 relativ stabil. Das bedeutet, dass Betreiber auf kleinere Gruppen optimieren können, ohne die Effizienz zu opfern – und kleinere Gruppen bedeuten kleinere Auswirkungsradien, wenn Ausfälle auftreten.
Anyscale merkt an, dass diese Orchestrierungs-Ebenen-Resilienz die Engine-Ebenen-Elastizitätsarbeit ergänzt, die in der vLLM-Community stattfindet. Der vLLM Elastic Expert Parallelism RFC befasst sich damit, wie die Laufzeit die Topologie innerhalb einer Gruppe dynamisch anpassen kann, während Ray Serve LLM verwaltet, welche Gruppen existieren und Traffic erhalten.
Für Organisationen, die DeepSeek-Modelle im großen Maßstab einsetzen, ist der praktische Nutzen eindeutig: GPU-Ausfälle werden zu lokalisierten Vorfällen statt systemweiten Ausfällen. Code-Beispiele und Reproduktionsschritte sind im GitHub-Repository von Anyscale verfügbar.
Bildquelle: Shutterstock- ray
- vllm
- KI-Infrastruktur
- maschinelles Lernen
- verteiltes Computing







