NVIDIA Ra Mắt Các Điểm Cuối Tăng Tốc GPU Cho Mô Hình Kimi K2.5 Của Moonshot AI
Jessie A Ellis 04/02/2026 20:11
NVIDIA hiện cung cấp quyền truy cập API tăng tốc GPU miễn phí vào Kimi K2.5, một mô hình AI đa phương thức 1T tham số với 384 chuyên gia và độ dài ngữ cảnh 262K cho các nhà phát triển.
NVIDIA đã triển khai các điểm cuối tăng tốc GPU cho Kimi K2.5 của Moonshot AI, cung cấp cho các nhà phát triển quyền truy cập API miễn phí vào một trong những mô hình đa phương thức nguồn mở mạnh mẽ nhất hiện có. Sự tích hợp này, được công bố vào ngày 4 tháng 2 năm 2026, định vị mô hình 1 nghìn tỷ tham số để áp dụng nhanh chóng trong doanh nghiệp thông qua nền tảng build.nvidia.com của NVIDIA.
Kimi K2.5 sở hữu các thông số kỹ thuật nghiêm túc quan trọng cho triển khai sản xuất. Mô hình sử dụng kiến trúc Hỗn Hợp Chuyên Gia với 384 chuyên gia, kích hoạt chỉ 32,86 tỷ tham số mỗi token—tỷ lệ kích hoạt 3,2% giúp chi phí suy luận có thể kiểm soát được bất chấp số lượng tham số khổng lồ. Độ dài ngữ cảnh kéo dài đến 262,000 token, xử lý phân tích tài liệu đáng kể và các cuộc hội thoại mở rộng.
Khả năng thị giác xứng đáng được chú ý. Moonshot đã xây dựng một Tháp Thị Giác MoonViT3d tùy chỉnh xử lý hình ảnh và khung hình video thành các embedding, được hỗ trợ bởi từ vựng 164,000 token chứa các token dành riêng cho thị giác. Đây không phải là tính đa phương thức được gắn thêm—nó là bản địa của kiến trúc.
Nhà Phát Triển Nhận Được Gì
Quyền truy cập tạo mẫu miễn phí thông qua Chương Trình Nhà Phát Triển của NVIDIA có nghĩa là các nhóm có thể kiểm tra với khối lượng công việc sản xuất trước khi cam kết cơ sở hạ tầng. API tuân theo các mẫu tương thích OpenAI, bao gồm hỗ trợ gọi công cụ cho quy trình làm việc tác nhân. Dịch vụ vi mô NVIDIA NIM cho suy luận sản xuất được đóng gói đang sắp ra mắt, mặc dù không có lịch trình cụ thể nào được cung cấp.
Đối với triển khai tự lưu trữ, tích hợp vLLM đã sẵn sàng ngay bây giờ. NVIDIA cũng xác nhận hỗ trợ tinh chỉnh thông qua NeMo Framework nguồn mở, sử dụng NeMo AutoModel để tùy chỉnh mô hình trực tiếp từ các checkpoint Hugging Face mà không cần các bước chuyển đổi.
Bối Cảnh Thị Trường
Moonshot AI đã phát hành Kimi K2.5 vào ngày 27 tháng 1 năm 2026, huấn luyện nó trên khoảng 15 nghìn tỷ token hỗn hợp hình ảnh và văn bản được xây dựng dựa trên nền tảng K2 trước đó. Mô hình đã được so sánh trực tiếp với Gemini 3 Pro của Google, đăng các điểm chuẩn cạnh tranh bao gồm điểm 78,5% trên các bài kiểm tra hiểu biết thị giác MMMU-Pro và 76,8% trên SWE-Bench Verified cho các nhiệm vụ lập trình.
Một tính năng khác biệt: cơ chế "Đàn Tác Nhân" phối hợp lên đến 100 tác nhân phụ song song, được báo cáo là cắt giảm thời gian thực thi 4,5 lần so với các phương pháp tác nhân đơn. Đối với các doanh nghiệp xây dựng các hệ thống tự động phức tạp, đó là một khoảng cách khả năng có ý nghĩa.
Sự hỗ trợ kiến trúc Blackwell của NVIDIA cho thấy công ty coi Kimi K2.5 là một đối thủ nghiêm túc trong triển khai AI doanh nghiệp. Các nhà phát triển có thể truy cập mô hình ngay lập tức thông qua build.nvidia.com hoặc qua Nền Tảng Kimi API trực tiếp từ Moonshot.
Nguồn hình ảnh: Shutterstock- nvidia
- kimi k2.5
- moonshot ai
- multimodal ai
- gpu computing


