NVIDIA NeMo RL đạt tốc độ nhanh hơn 48% với huấn luyện độ chính xác FP8 đầu cuối

Jessie A Ellis 23:41 20/04/2026 (Giờ VN)

Công thức FP8 mới của NVIDIA cho học tăng cường mang lại tốc độ huấn luyện nhanh hơn 48% trong khi duy trì độ chính xác tương đương BF16, cắt giảm đáng kể chi phí cơ sở hạ tầng AI.

NVIDIA NeMo RL đạt tốc độ nhanh hơn 48% với huấn luyện độ chính xác FP8 đầu cuối

NVIDIA đã phát hành công thức độ chính xác FP8 toàn diện cho học tăng cường mang lại thông lượng huấn luyện nhanh hơn tới 48% trong khi duy trì độ chính xác ngang bằng với các phương pháp BF16 truyền thống—một bước phát triển có ý nghĩa quan trọng đối với chi phí cơ sở hạ tầng AI và kinh tế tính toán GPU.

Kỹ thuật này, được trình bày chi tiết trong bài đăng blog kỹ thuật của Guyue Huang từ NVIDIA, giải quyết một trong những vấn đề khó khăn nhất của huấn luyện RL: sự không nhất quán số học giữa các giai đoạn tạo sinh và huấn luyện khi sử dụng các mức độ chính xác khác nhau trên các engine riêng biệt.

Đột phá kỹ thuật

Các pipeline RL truyền thống sử dụng vLLM cho rollouts và Megatron Core cho huấn luyện—mỗi loại có các CUDA kernel độc đáo tạo ra sự khác biệt số học tích lũy. Những sự chênh lệch này phóng đại ở các mức độ chính xác thấp hơn, lịch sử hạn chế việc áp dụng FP8.

Giải pháp của NVIDIA? Áp dụng FP8 nhất quán trên cả tạo sinh và huấn luyện thay vì trộn lẫn các mức độ chính xác. Kiểm tra trên Llama 3.1 8B Instruct cho thấy độ chính xác xác thực là 0.613 với FP8 đầu cuối so với 0.616 cho BF16—có hiệu quả thu hẹp khoảng cách. Trong khi đó, chỉ sử dụng FP8 cho tạo sinh làm giảm độ chính xác xuống 0.586.

Công thức sử dụng FP8 lượng tử hóa theo khối (định dạng E4M3) với độ chi tiết 128x128 cho trọng số và 1x128 cho kích hoạt. Các lớp tuyến tính chạy phép toán FP8 ở thông lượng đỉnh lý thuyết gấp 2 lần so với BF16, trong khi attention, normalization và các hàm phi tuyến tính vẫn ở BF16.

Tăng hiệu suất thực tế

Chỉ riêng cho các lớp tuyến tính, công thức FP8 mang lại cải thiện thông lượng ổn định 15-25%. Khoảng cách giữa tốc độ tăng lý thuyết gấp 2 lần và lợi ích thực tế đến từ các lớp attention vẫn ở BF16 cộng với overhead kernel lượng tử hóa.

Mở rộng FP8 sang KV cache và các hoạt động attention đẩy tổng tốc độ tăng lên khoảng 48% so với baseline BF16. Vấn đề: trọng số chính sách liên tục cập nhật của RL yêu cầu hiệu chuẩn lại động các thang đo lượng tử hóa sau mỗi bước huấn luyện. Phương pháp của NVIDIA thêm khoảng 2-3% overhead cho việc hiệu chuẩn lại này—một chi phí nhỏ cho gia tốc đáng kể.

Kiểm tra trên Qwen3-30B (một mô hình mixture-of-experts) cho thấy các đường cong độ chính xác khớp nhau giữa cấu hình FP8 và BF16, cho thấy kỹ thuật này mở rộng quy mô trên các kiến trúc.

Tại sao điều này quan trọng đối với kinh tế AI

Huấn luyện RL cho các mô hình có khả năng lập luận như những mô hình đằng sau các trợ lý AI nâng cao yêu cầu khả năng tính toán lớn. Tốc độ tăng 48% chuyển đổi trực tiếp thành giảm giờ GPU và hóa đơn tiền điện thấp hơn cho các tổ chức huấn luyện các hệ thống này.

Kỹ thuật importance sampling cho phép bảo toàn độ chính xác có thể chứng minh giá trị tương đương. Bằng cách điều chỉnh sự không khớp phân phối giữa các mô hình tạo sinh và huấn luyện trên cơ sở mỗi token, nó cho phép giảm độ chính xác mạnh mẽ mà không hy sinh chất lượng mô hình.

Triển khai đầy đủ có sẵn trong thư viện NeMo RL mã nguồn mở của NVIDIA, với các công thức được cấu hình sẵn cho các mô hình Llama 3.1 8B và Moonlight 16B. Người dùng nâng cao có thể tinh chỉnh phương pháp—giữ các lớp transformer cụ thể trong BF16 hoặc chuyển sang các hệ số tỷ lệ lũy thừa của 2 để tối ưu hóa bổ sung.

Đối với các nhà vận hành cơ sở hạ tầng AI đang theo dõi chi phí tính toán tăng cùng với độ phức tạp của mô hình, điều này đại diện cho một đòn bẩy hiệu quả có ý nghĩa không yêu cầu nâng cấp phần cứng—chỉ cần sử dụng thông minh hơn các khả năng H100 hiện có.

Nguồn hình ảnh: Shutterstock

nvidia
ai training
fp8 precision
machine learning
nemo rl

NVIDIA NeMo RL Đạt Tốc Độ Nhanh Hơn 48% với Huấn Luyện Độ Chính Xác FP8 End-to-End

NVIDIA NeMo RL đạt tốc độ nhanh hơn 48% với huấn luyện độ chính xác FP8 đầu cuối

Đột phá kỹ thuật

Tăng hiệu suất thực tế

Tại sao điều này quan trọng đối với kinh tế AI

Có thể bạn cũng thích

Chiến lược của Saylor đẩy số Bitcoin nắm giữ vượt 815.000 BTC

Token RAVE Đối Mặt Với Đợt Sụt Giảm 50% Khác Giữa Cáo Buộc Thao Túng Giá

Cảnh Báo Cực Quang: 24 Bang Này Có Thể Nhìn Thấy Cực Quang Tối Nay

Tin tức xu hướng

Chúng ta đã chuẩn hóa phức hợp cứu thế của Trump — và ý nghĩa của nó đối với nước Mỹ

Bitmine Mua 101K ETH, Gần Đạt Mục Tiêu 5% Nguồn Cung

Ripple Đặt Mục Tiêu 2028 để Biến XRP Ledger Sẵn Sàng Chống Lượng Tử

Revolut Hoãn IPO Đến Năm 2028 Sau Khi Nhận Được Giấy Phép Ngân Hàng Của Vương Quốc Anh

Tổng chưởng lý MAGA thừa nhận vi phạm đạo đức dưới lời tuyên thệ khi cuộc đua Th참nghị viện nóng lên: WSJ

Tin tức trực tiếp 24/7

Đọc nhanh

Bitcoin trượt xuống dưới $75K: Iran đàm phán sụp đổ, thị trường tiền điện tử có tác động

BEEG vs PEPE: Liệu Sui Meme Coin này có thể lặp lại cuộc biểu tình lớn nhất của Crypto?

BEEG vs BONK: Đồng Meme nào có nhiều không gian tăng hơn năm 2026?

293 triệu đô la biến trong 46 phút: Vụ hack cầu Kelp DAO phá vỡ giả định lớn nhất của DeFi

Dự đoán giá BEEG 2026: Cá voi Beeg Xanh da trời có thể tăng cao như thế nào trong năm nay?

Giá tiền mã hoá