DeepSeek V4 ra mắt với NVIDIA Blackwell, cho phép AI ngữ cảnh 1M token
Iris Coleman 25/04/2026 07:10 (Giờ VN)
DeepSeek V4, được hỗ trợ bởi NVIDIA Blackwell, cung cấp AI ngữ cảnh 1M token với bộ nhớ overhead giảm và suy luận nhanh hơn, nhắm đến các quy trình làm việc ngữ cảnh dài.
DeepSeek đã ra mắt các mô hình AI thế hệ thứ tư, DeepSeek-V4-Pro và DeepSeek-V4-Flash, đẩy lùi giới hạn của suy luận ngữ cảnh dài. Các mô hình này, hiện có sẵn thông qua các endpoint được tăng tốc bởi GPU Blackwell của NVIDIA, được thiết kế để xử lý cửa sổ ngữ cảnh lên đến 1 triệu token, một bước tiến đáng kể cho các ứng dụng như lập trình nâng cao, phân tích tài liệu và các quy trình làm việc AI tác nhân.
DeepSeek-V4-Pro hàng đầu sở hữu tổng cộng 1,6 nghìn tỷ tham số với 49 tỷ tham số hoạt động, trong khi DeepSeek-V4-Flash tập trung vào hiệu quả hơn có tổng cộng 284 tỷ tham số và 13 tỷ tham số hoạt động. Cả hai mô hình đều được cấp phép theo MIT và phục vụ các trường hợp sử dụng riêng biệt—Pro cho suy luận nâng cao và Flash cho các tác vụ tốc độ cao như tóm tắt và định tuyến.
Những đột phá kiến trúc cho AI ngữ cảnh dài
DeepSeek V4 được xây dựng dựa trên kiến trúc Mixture-of-Experts (MoE) của công ty, giới thiệu các cải tiến nhằm vượt qua những thách thức của suy luận ngữ cảnh dài. Cơ chế chú ý lai mới kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA), cho phép giảm 73% FLOPs suy luận mỗi token và giảm 90% mức sử dụng bộ nhớ KV cache so với phiên bản tiền nhiệm DeepSeek V3.2.
Tại sao điều này quan trọng? Khi cửa sổ ngữ cảnh mở rộng, việc quản lý hiệu quả bộ nhớ và tính toán trở nên quan trọng. Các ứng dụng AI ngữ cảnh dài như suy luận đa lượt, tích hợp công cụ và các quy trình làm việc mở rộng đòi hỏi các mô hình có thể lưu trữ và xử lý lượng lớn dữ liệu ngữ cảnh mà không gặp điểm nghẽn. Những cải tiến của DeepSeek V4 giải quyết các điểm yếu này, khiến nó trở thành ứng viên mạnh cho các doanh nghiệp muốn mở rộng các hệ thống hỗ trợ bởi AI.
Tích hợp NVIDIA Blackwell
DeepSeek V4 được tích hợp chặt chẽ với nền tảng Blackwell của NVIDIA, tận dụng cơ sở hạ tầng được tăng tốc bởi GPU để có hiệu suất có thể mở rộng. Các thử nghiệm ban đầu trên phần cứng NVIDIA GB200 NVL72 cho thấy DeepSeek-V4-Pro đạt hơn 150 token mỗi giây mỗi người dùng, với các tối ưu hóa đang diễn ra dự kiến sẽ cải thiện thêm thông lượng.
Kiến trúc của Blackwell được thiết kế cho các mô hình trí tuệ với nghìn tỷ tham số, khiến nó phù hợp tự nhiên với nhu cầu tính toán của DeepSeek V4. Các nhà phát triển có thể tạo nguyên mẫu với các mô hình này thông qua các endpoint được lưu trữ của NVIDIA trên build.nvidia.com hoặc triển khai trực tiếp bằng NVIDIA NIM cho các cài đặt cơ sở hạ tầng tùy chỉnh.
Các trường hợp sử dụng mục tiêu và tính linh hoạt triển khai
Khả năng xử lý ngữ cảnh 1M token của DeepSeek V4 mở ra cơ hội mới cho lập trình ngữ cảnh dài, các quy trình làm việc dựa trên truy xuất và AI tác nhân. Tính linh hoạt của nó được nâng cao hơn nữa nhờ các công cụ triển khai như SGLang và vLLM, cung cấp các cấu hình phù hợp với các nhu cầu độ trễ và thông lượng khác nhau, từ cài đặt độ trễ thấp đến cấu hình đa GPU cho các hoạt động quy mô lớn.
Sự tập trung vào tính linh hoạt triển khai này nhấn mạnh một xu hướng rộng hơn: khi các mô hình AI mở tiếp cận ranh giới của trí tuệ, các doanh nghiệp đang chuyển sự chú ý từ việc lựa chọn mô hình sang tối ưu hóa cơ sở hạ tầng. Mục tiêu cuối cùng là giảm chi phí mỗi token trong khi duy trì hiệu suất, và DeepSeek V4 hoàn toàn phù hợp với ưu tiên này.
Bắt đầu
Các nhà phát triển có thể truy cập DeepSeek V4 thông qua nhiều kênh, bao gồm Hugging Face và các endpoint API của NVIDIA. Đối với các doanh nghiệp và nhà phát triển muốn tích hợp AI ngữ cảnh dài vào quy trình làm việc của họ, DeepSeek V4 cung cấp sự kết hợp hấp dẫn giữa khả năng mở rộng, hiệu quả và khả năng suy luận nâng cao.
Với những tiến bộ kiến trúc và tích hợp liền mạch với NVIDIA Blackwell, DeepSeek V4 đặt ra một tiêu chuẩn mới cho AI ngữ cảnh dài. Khi nhu cầu về các hệ thống tác nhân và cửa sổ ngữ cảnh mở rộng ngày càng tăng, các mô hình như thế này sẽ đóng vai trò then chốt trong việc định hình thế hệ ứng dụng AI tiếp theo.
Nguồn ảnh: Shutterstock- deepseek v4
- nvidia blackwell
- ai models
- long-context inference







