NVIDIA NeMo RL đạt tốc độ nhanh hơn 48% với huấn luyện độ chính xác FP8 đầu cuối
Jessie A Ellis 23:41 20/04/2026 (Giờ VN)
Công thức FP8 mới của NVIDIA cho học tăng cường mang lại tốc độ huấn luyện nhanh hơn 48% trong khi duy trì độ chính xác tương đương BF16, cắt giảm đáng kể chi phí cơ sở hạ tầng AI.
NVIDIA đã phát hành công thức độ chính xác FP8 toàn diện cho học tăng cường mang lại thông lượng huấn luyện nhanh hơn tới 48% trong khi duy trì độ chính xác ngang bằng với các phương pháp BF16 truyền thống—một bước phát triển có ý nghĩa quan trọng đối với chi phí cơ sở hạ tầng AI và kinh tế tính toán GPU.
Kỹ thuật này, được trình bày chi tiết trong bài đăng blog kỹ thuật của Guyue Huang từ NVIDIA, giải quyết một trong những vấn đề khó khăn nhất của huấn luyện RL: sự không nhất quán số học giữa các giai đoạn tạo sinh và huấn luyện khi sử dụng các mức độ chính xác khác nhau trên các engine riêng biệt.
Đột phá kỹ thuật
Các pipeline RL truyền thống sử dụng vLLM cho rollouts và Megatron Core cho huấn luyện—mỗi loại có các CUDA kernel độc đáo tạo ra sự khác biệt số học tích lũy. Những sự chênh lệch này phóng đại ở các mức độ chính xác thấp hơn, lịch sử hạn chế việc áp dụng FP8.
Giải pháp của NVIDIA? Áp dụng FP8 nhất quán trên cả tạo sinh và huấn luyện thay vì trộn lẫn các mức độ chính xác. Kiểm tra trên Llama 3.1 8B Instruct cho thấy độ chính xác xác thực là 0.613 với FP8 đầu cuối so với 0.616 cho BF16—có hiệu quả thu hẹp khoảng cách. Trong khi đó, chỉ sử dụng FP8 cho tạo sinh làm giảm độ chính xác xuống 0.586.
Công thức sử dụng FP8 lượng tử hóa theo khối (định dạng E4M3) với độ chi tiết 128x128 cho trọng số và 1x128 cho kích hoạt. Các lớp tuyến tính chạy phép toán FP8 ở thông lượng đỉnh lý thuyết gấp 2 lần so với BF16, trong khi attention, normalization và các hàm phi tuyến tính vẫn ở BF16.
Tăng hiệu suất thực tế
Chỉ riêng cho các lớp tuyến tính, công thức FP8 mang lại cải thiện thông lượng ổn định 15-25%. Khoảng cách giữa tốc độ tăng lý thuyết gấp 2 lần và lợi ích thực tế đến từ các lớp attention vẫn ở BF16 cộng với overhead kernel lượng tử hóa.
Mở rộng FP8 sang KV cache và các hoạt động attention đẩy tổng tốc độ tăng lên khoảng 48% so với baseline BF16. Vấn đề: trọng số chính sách liên tục cập nhật của RL yêu cầu hiệu chuẩn lại động các thang đo lượng tử hóa sau mỗi bước huấn luyện. Phương pháp của NVIDIA thêm khoảng 2-3% overhead cho việc hiệu chuẩn lại này—một chi phí nhỏ cho gia tốc đáng kể.
Kiểm tra trên Qwen3-30B (một mô hình mixture-of-experts) cho thấy các đường cong độ chính xác khớp nhau giữa cấu hình FP8 và BF16, cho thấy kỹ thuật này mở rộng quy mô trên các kiến trúc.
Tại sao điều này quan trọng đối với kinh tế AI
Huấn luyện RL cho các mô hình có khả năng lập luận như những mô hình đằng sau các trợ lý AI nâng cao yêu cầu khả năng tính toán lớn. Tốc độ tăng 48% chuyển đổi trực tiếp thành giảm giờ GPU và hóa đơn tiền điện thấp hơn cho các tổ chức huấn luyện các hệ thống này.
Kỹ thuật importance sampling cho phép bảo toàn độ chính xác có thể chứng minh giá trị tương đương. Bằng cách điều chỉnh sự không khớp phân phối giữa các mô hình tạo sinh và huấn luyện trên cơ sở mỗi token, nó cho phép giảm độ chính xác mạnh mẽ mà không hy sinh chất lượng mô hình.
Triển khai đầy đủ có sẵn trong thư viện NeMo RL mã nguồn mở của NVIDIA, với các công thức được cấu hình sẵn cho các mô hình Llama 3.1 8B và Moonlight 16B. Người dùng nâng cao có thể tinh chỉnh phương pháp—giữ các lớp transformer cụ thể trong BF16 hoặc chuyển sang các hệ số tỷ lệ lũy thừa của 2 để tối ưu hóa bổ sung.
Đối với các nhà vận hành cơ sở hạ tầng AI đang theo dõi chi phí tính toán tăng cùng với độ phức tạp của mô hình, điều này đại diện cho một đòn bẩy hiệu quả có ý nghĩa không yêu cầu nâng cấp phần cứng—chỉ cần sử dụng thông minh hơn các khả năng H100 hiện có.
Nguồn hình ảnh: Shutterstock- nvidia
- ai training
- fp8 precision
- machine learning
- nemo rl








