Ray 2.55 Bổ sung Khả năng Chịu lỗi cho Triển khai Mô hình AI Quy mô Lớn

Joerg Hiller 18:35 02/04/2026 (Giờ VN)

Bản cập nhật Ray Serve LLM của Anyscale cho phép khả năng chịu lỗi nhóm DP cho triển khai vLLM WideEP, giảm rủi ro ngừng hoạt động cho các hệ thống suy luận AI phân tán.

Ray 2.55 Bổ sung Khả năng Chịu lỗi cho Triển khai Mô hình AI Quy mô Lớn

Anyscale đã phát hành một bản cập nhật quan trọng cho framework Ray Serve LLM nhằm giải quyết thách thức vận hành quan trọng đối với các tổ chức chạy khối lượng công việc suy luận AI quy mô lớn. Ray 2.55 giới thiệu khả năng chịu lỗi nhóm song song dữ liệu (DP) cho triển khai vLLM Wide Expert Parallelism—một tính năng ngăn chặn lỗi GPU đơn lẻ khỏi làm ngừng hoạt động toàn bộ cụm phục vụ mô hình.

Bản cập nhật nhắm vào một điểm yếu cụ thể trong phục vụ mô hình Mixture of Experts (MoE). Không giống như triển khai mô hình truyền thống nơi mỗi bản sao hoạt động độc lập, các kiến trúc MoE như DeepSeek-V3 phân mảnh các lớp chuyên gia trên các nhóm GPU phải hoạt động cùng nhau. Khi một GPU trong các cấu hình này bị lỗi, toàn bộ nhóm—có thể trải rộng từ 16 đến 128 GPU—trở nên không hoạt động.

Vấn đề Kỹ thuật

Các mô hình MoE phân phối các mạng thần kinh "chuyên gia" chuyên biệt trên nhiều GPU. Ví dụ, DeepSeek-V3 chứa 256 chuyên gia trên mỗi lớp nhưng chỉ kích hoạt 8 cho mỗi token. Các token được định tuyến đến bất kỳ GPU nào chứa các chuyên gia cần thiết thông qua các hoạt động điều phối và kết hợp yêu cầu tất cả các rank tham gia phải hoạt động tốt.

Trước đây, một lỗi rank đơn lẻ sẽ phá vỡ các hoạt động tập thể này. Các truy vấn sẽ tiếp tục định tuyến đến các bản sao còn sống sót trong nhóm bị ảnh hưởng, nhưng mọi yêu cầu đều thất bại. Khôi phục yêu cầu khởi động lại toàn bộ hệ thống.

Cách Ray Giải quyết

Ray Serve LLM hiện xử lý mỗi nhóm DP như một đơn vị nguyên tử thông qua lập lịch theo nhóm. Khi một rank bị lỗi, hệ thống đánh dấu toàn bộ nhóm là không khỏe mạnh, dừng định tuyến lưu lượng đến nó, tháo dỡ nhóm bị lỗi và xây dựng lại nó như một đơn vị. Các nhóm khỏe mạnh khác tiếp tục phục vụ yêu cầu trong suốt quá trình.

Tính năng được bật mặc định trong Ray 2.55. Các triển khai DP hiện có không yêu cầu thay đổi mã—framework tự động xử lý kiểm tra sức khỏe cấp nhóm, lập lịch và khôi phục.

Tự động điều chỉnh kích thước cũng tôn trọng các ranh giới này. Các hoạt động mở rộng và thu nhỏ xảy ra theo từng bước kích thước nhóm thay vì các bản sao riêng lẻ, ngăn chặn việc tạo các nhóm không đầy đủ không thể phục vụ lưu lượng.

Tác động Vận hành

Bản cập nhật tạo ra một cân nhắc thiết kế quan trọng: độ rộng nhóm so với số lượng nhóm. Theo các điểm chuẩn vLLM được Anyscale trích dẫn, thông lượng trên mỗi GPU vẫn tương đối ổn định trên các kích thước song song chuyên gia 32, 72 và 96. Điều này có nghĩa là các nhà vận hành có thể điều chỉnh về các nhóm nhỏ hơn mà không hy sinh hiệu suất—và các nhóm nhỏ hơn có nghĩa là bán kính ảnh hưởng nhỏ hơn khi xảy ra lỗi.

Anyscale lưu ý rằng khả năng phục hồi cấp điều phối này bổ sung cho công việc tính linh hoạt cấp engine đang diễn ra trong cộng đồng vLLM. RFC vLLM Elastic Expert Parallelism giải quyết cách runtime có thể điều chỉnh động cấu trúc liên kết trong một nhóm, trong khi Ray Serve LLM quản lý nhóm nào tồn tại và nhận lưu lượng.

Đối với các tổ chức triển khai mô hình kiểu DeepSeek ở quy mô lớn, lợi ích thực tế rất đơn giản: lỗi GPU trở thành sự cố cục bộ thay vì ngừng hoạt động toàn hệ thống. Các mẫu mã và các bước tái tạo có sẵn trên kho GitHub của Anyscale.

Nguồn hình ảnh: Shutterstock