Ray 2.55 Menambahkan Toleransi Kesalahan untuk Penerapan Model AI Skala Besar

Joerg Hiller 02 Apr 2026 18:35

Pembaruan Ray Serve LLM dari Anyscale memungkinkan toleransi kesalahan grup DP untuk penerapan vLLM WideEP, mengurangi risiko downtime untuk sistem inferensi AI terdistribusi.

Ray 2.55 Menambahkan Toleransi Kesalahan untuk Penerapan Model AI Skala Besar

Anyscale telah merilis pembaruan signifikan untuk kerangka kerja Ray Serve LLM yang mengatasi tantangan operasional kritis bagi organisasi yang menjalankan beban kerja inferensi AI skala besar. Ray 2.55 memperkenalkan toleransi kesalahan grup data parallel (DP) untuk penerapan vLLM Wide Expert Parallelism—sebuah fitur yang mencegah kegagalan GPU tunggal menjatuhkan seluruh kluster penyajian model.

Pembaruan ini menargetkan titik masalah spesifik dalam penyajian model Mixture of Experts (MoE). Tidak seperti penerapan model tradisional di mana setiap replika beroperasi secara independen, arsitektur MoE seperti DeepSeek-V3 membagi lapisan expert ke seluruh grup GPU yang harus bekerja secara kolektif. Ketika satu GPU dalam konfigurasi ini gagal, seluruh grup—yang berpotensi mencakup 16 hingga 128 GPU—menjadi tidak beroperasi.

Masalah Teknis

Model MoE mendistribusikan jaringan neural "expert" yang terspesialisasi ke beberapa GPU. DeepSeek-V3, misalnya, berisi 256 expert per lapisan tetapi hanya mengaktifkan 8 per token. Token dialihkan ke GPU mana pun yang menyimpan expert yang dibutuhkan melalui operasi dispatch dan combine yang memerlukan semua rank yang berpartisipasi dalam kondisi sehat.

Sebelumnya, kegagalan rank tunggal akan merusak operasi kolektif ini. Kueri akan terus dialihkan ke replika yang bertahan dalam grup yang terpengaruh, tetapi setiap permintaan akan gagal. Pemulihan memerlukan restart seluruh sistem.

Bagaimana Ray Menyelesaikannya

Ray Serve LLM sekarang memperlakukan setiap grup DP sebagai unit atomik melalui gang scheduling. Ketika satu rank gagal, sistem menandai seluruh grup sebagai tidak sehat, menghentikan pengalihan traffic ke grup tersebut, merobohkan grup yang gagal, dan membangunnya kembali sebagai satu unit. Grup sehat lainnya terus melayani permintaan sepanjang waktu.

Fitur ini dikirimkan dengan diaktifkan secara default di Ray 2.55. Penerapan DP yang ada tidak memerlukan perubahan kode—kerangka kerja menangani pemeriksaan kesehatan tingkat grup, penjadwalan, dan pemulihan secara otomatis.

Autoscaling juga menghormati batasan-batasan ini. Operasi scale-up dan scale-down terjadi dalam peningkatan berukuran grup daripada replika individual, mencegah pembuatan grup parsial yang tidak dapat melayani traffic.

Implikasi Operasional

Pembaruan ini menciptakan pertimbangan desain penting: lebar grup versus jumlah grup. Menurut benchmark vLLM yang dikutip oleh Anyscale, throughput per GPU tetap relatif stabil di seluruh ukuran expert parallel 32, 72, dan 96. Ini berarti operator dapat menyetel ke grup yang lebih kecil tanpa mengorbankan efisiensi—dan grup yang lebih kecil berarti radius ledakan yang lebih kecil ketika kegagalan terjadi.

Anyscale mencatat bahwa ketahanan tingkat orkestrasi ini melengkapi pekerjaan elastisitas tingkat mesin yang terjadi di komunitas vLLM. RFC vLLM Elastic Expert Parallelism membahas bagaimana runtime dapat secara dinamis menyesuaikan topologi dalam grup, sementara Ray Serve LLM mengelola grup mana yang ada dan menerima traffic.

Untuk organisasi yang menerapkan model gaya DeepSeek dalam skala besar, manfaat praktisnya jelas: kegagalan GPU menjadi insiden lokal daripada pemadaman seluruh sistem. Contoh kode dan langkah reproduksi tersedia di repositori GitHub Anyscale.

Sumber gambar: Shutterstock