DeepSeek V4 ra mắt với NVIDIA Blackwell, cho phép AI ngữ cảnh 1M token

Iris Coleman 25/04/2026 07:10 (Giờ VN)

DeepSeek V4, được hỗ trợ bởi NVIDIA Blackwell, cung cấp AI ngữ cảnh 1M token với bộ nhớ overhead giảm và suy luận nhanh hơn, nhắm đến các quy trình làm việc ngữ cảnh dài.

DeepSeek V4 ra mắt với NVIDIA Blackwell, cho phép AI ngữ cảnh 1M token

DeepSeek đã ra mắt các mô hình AI thế hệ thứ tư, DeepSeek-V4-Pro và DeepSeek-V4-Flash, đẩy lùi giới hạn của suy luận ngữ cảnh dài. Các mô hình này, hiện có sẵn thông qua các endpoint được tăng tốc bởi GPU Blackwell của NVIDIA, được thiết kế để xử lý cửa sổ ngữ cảnh lên đến 1 triệu token, một bước tiến đáng kể cho các ứng dụng như lập trình nâng cao, phân tích tài liệu và các quy trình làm việc AI tác nhân.

DeepSeek-V4-Pro hàng đầu sở hữu tổng cộng 1,6 nghìn tỷ tham số với 49 tỷ tham số hoạt động, trong khi DeepSeek-V4-Flash tập trung vào hiệu quả hơn có tổng cộng 284 tỷ tham số và 13 tỷ tham số hoạt động. Cả hai mô hình đều được cấp phép theo MIT và phục vụ các trường hợp sử dụng riêng biệt—Pro cho suy luận nâng cao và Flash cho các tác vụ tốc độ cao như tóm tắt và định tuyến.

Những đột phá kiến trúc cho AI ngữ cảnh dài

DeepSeek V4 được xây dựng dựa trên kiến trúc Mixture-of-Experts (MoE) của công ty, giới thiệu các cải tiến nhằm vượt qua những thách thức của suy luận ngữ cảnh dài. Cơ chế chú ý lai mới kết hợp Compressed Sparse Attention (CSA) và Heavily Compressed Attention (HCA), cho phép giảm 73% FLOPs suy luận mỗi token và giảm 90% mức sử dụng bộ nhớ KV cache so với phiên bản tiền nhiệm DeepSeek V3.2.

Tại sao điều này quan trọng? Khi cửa sổ ngữ cảnh mở rộng, việc quản lý hiệu quả bộ nhớ và tính toán trở nên quan trọng. Các ứng dụng AI ngữ cảnh dài như suy luận đa lượt, tích hợp công cụ và các quy trình làm việc mở rộng đòi hỏi các mô hình có thể lưu trữ và xử lý lượng lớn dữ liệu ngữ cảnh mà không gặp điểm nghẽn. Những cải tiến của DeepSeek V4 giải quyết các điểm yếu này, khiến nó trở thành ứng viên mạnh cho các doanh nghiệp muốn mở rộng các hệ thống hỗ trợ bởi AI.

Tích hợp NVIDIA Blackwell

DeepSeek V4 được tích hợp chặt chẽ với nền tảng Blackwell của NVIDIA, tận dụng cơ sở hạ tầng được tăng tốc bởi GPU để có hiệu suất có thể mở rộng. Các thử nghiệm ban đầu trên phần cứng NVIDIA GB200 NVL72 cho thấy DeepSeek-V4-Pro đạt hơn 150 token mỗi giây mỗi người dùng, với các tối ưu hóa đang diễn ra dự kiến sẽ cải thiện thêm thông lượng.

Kiến trúc của Blackwell được thiết kế cho các mô hình trí tuệ với nghìn tỷ tham số, khiến nó phù hợp tự nhiên với nhu cầu tính toán của DeepSeek V4. Các nhà phát triển có thể tạo nguyên mẫu với các mô hình này thông qua các endpoint được lưu trữ của NVIDIA trên build.nvidia.com hoặc triển khai trực tiếp bằng NVIDIA NIM cho các cài đặt cơ sở hạ tầng tùy chỉnh.

Các trường hợp sử dụng mục tiêu và tính linh hoạt triển khai

Khả năng xử lý ngữ cảnh 1M token của DeepSeek V4 mở ra cơ hội mới cho lập trình ngữ cảnh dài, các quy trình làm việc dựa trên truy xuất và AI tác nhân. Tính linh hoạt của nó được nâng cao hơn nữa nhờ các công cụ triển khai như SGLang và vLLM, cung cấp các cấu hình phù hợp với các nhu cầu độ trễ và thông lượng khác nhau, từ cài đặt độ trễ thấp đến cấu hình đa GPU cho các hoạt động quy mô lớn.

Sự tập trung vào tính linh hoạt triển khai này nhấn mạnh một xu hướng rộng hơn: khi các mô hình AI mở tiếp cận ranh giới của trí tuệ, các doanh nghiệp đang chuyển sự chú ý từ việc lựa chọn mô hình sang tối ưu hóa cơ sở hạ tầng. Mục tiêu cuối cùng là giảm chi phí mỗi token trong khi duy trì hiệu suất, và DeepSeek V4 hoàn toàn phù hợp với ưu tiên này.

Bắt đầu

Các nhà phát triển có thể truy cập DeepSeek V4 thông qua nhiều kênh, bao gồm Hugging Face và các endpoint API của NVIDIA. Đối với các doanh nghiệp và nhà phát triển muốn tích hợp AI ngữ cảnh dài vào quy trình làm việc của họ, DeepSeek V4 cung cấp sự kết hợp hấp dẫn giữa khả năng mở rộng, hiệu quả và khả năng suy luận nâng cao.

Với những tiến bộ kiến trúc và tích hợp liền mạch với NVIDIA Blackwell, DeepSeek V4 đặt ra một tiêu chuẩn mới cho AI ngữ cảnh dài. Khi nhu cầu về các hệ thống tác nhân và cửa sổ ngữ cảnh mở rộng ngày càng tăng, các mô hình như thế này sẽ đóng vai trò then chốt trong việc định hình thế hệ ứng dụng AI tiếp theo.

Nguồn ảnh: Shutterstock

deepseek v4
nvidia blackwell
ai models
long-context inference

DeepSeek V4 ra mắt với NVIDIA Blackwell, cho phép AI ngữ cảnh 1M Token

DeepSeek V4 ra mắt với NVIDIA Blackwell, cho phép AI ngữ cảnh 1M token

Những đột phá kiến trúc cho AI ngữ cảnh dài

Tích hợp NVIDIA Blackwell

Các trường hợp sử dụng mục tiêu và tính linh hoạt triển khai

Bắt đầu

Có thể bạn cũng thích

Sự Chênh Lệch Giá Giữa Pi Mining Và Sàn Giao Dịch Tiết Lộ Giá Trị Ẩn Của Pi Network

Tin tức Stablecoin: Morgan Stanley thêm danh mục dự trữ Stablecoin vào quỹ thanh khoản

Presale Tiền Mã Hoá Tốt Nhất Để Mua Ngay: Pepeto Đi Theo Con Đường $0 Đến $11B Của Pepe Coin Và Nhắm Mục Tiêu 300x Với Sàn Giao Dịch Trực Tiếp

Tin tức xu hướng

Cổ phiếu Qualcomm (QCOM) tăng 11% trước báo cáo thu nhập Q2 ngày 29 tháng 4

Chainlink mở rộng phạm vi thông qua việc ra mắt trên AWS Marketplace

Cổ phiếu Trade Desk (TTD) tăng 6% sau khi CEO mua nội bộ lớn trị giá 150 triệu USD

Các nhà đầu tư XRP và Bitcoin đang bị 'mắc kẹt', nhưng liệu có lối thoát không?

'Đây là ranh giới': MAGA bùng nổ trước sự thành công vang dội của bữa tiệc Grindr tại DC của Trump

Tin tức trực tiếp 24/7

Đọc nhanh

Dự đoán giá BEEG 2026: Cá voi đã đi biển - Hay làn sóng lớn nhất vẫn đang đến?

Phân tích chuyên sâu BEEG 2026: Liệu con cá voi khổng lồ có đang lặng lẽ xây nhà kho?

XRP ETF lập kỷ lục về chuỗi dài nhất năm 2026, các quỹ tổ chức trở lại mẽ

DOGE Bulls Eye là một đột phá quan trọng - $0,126 có phải là điểm dừng tiếp theo?

Peace Frog (PEACE) là gì? Giới thiệu về Tiền điện tử

Giá tiền mã hoá