Bài viết Google Thu Nhỏ Bộ Nhớ AI Mà Không Mất Độ Chính Xác—Nhưng Có Một Điều Cần Lưu Ý xuất hiện trên BitcoinEthereumNews.com. Tóm lại, Google cho biết thuật toán TurboQuant của mình có thểBài viết Google Thu Nhỏ Bộ Nhớ AI Mà Không Mất Độ Chính Xác—Nhưng Có Một Điều Cần Lưu Ý xuất hiện trên BitcoinEthereumNews.com. Tóm lại, Google cho biết thuật toán TurboQuant của mình có thể

Google Thu Nhỏ Bộ Nhớ AI Mà Không Mất Độ Chính Xác—Nhưng Có Một Điều Cần Lưu Ý

2026/03/26 07:33
Đọc trong 5 phút
Đối với phản hồi hoặc thắc mắc liên quan đến nội dung này, vui lòng liên hệ với chúng tôi qua [email protected]

Tóm tắt

  • Google cho biết thuật toán TurboQuant của họ có thể giảm ít nhất sáu lần tắc nghẽn bộ nhớ AI chính mà không làm mất độ chính xác trong quá trình suy luận.
  • Cổ phiếu bộ nhớ bao gồm Micron, Western Digital và Seagate giảm sau khi bài báo được công bố.
  • Phương pháp này nén bộ nhớ suy luận, không phải trọng số mô hình, và chỉ mới được thử nghiệm trong các bài kiểm tra nghiên cứu.

Google Research đã công bố TurboQuant vào thứ Tư, một thuật toán nén giúp thu nhỏ tắc nghẽn bộ nhớ suy luận chính ít nhất 6 lần trong khi vẫn duy trì độ chính xác không bị mất mát.

Bài báo dự kiến sẽ được trình bày tại ICLR 2026, và phản ứng trực tuyến là ngay lập tức.

CEO Cloudflare Matthew Prince gọi đây là khoảnh khắc DeepSeek của Google. Giá cổ phiếu bộ nhớ, bao gồm Micron, Western Digital và Seagate, đều giảm vào cùng ngày.

Vậy nó có thực sự không?

Hiệu quả lượng tử hóa tự nó đã là một thành tựu lớn. Nhưng "không mất độ chính xác" cần bối cảnh.

TurboQuant nhắm vào bộ nhớ đệm KV—phần bộ nhớ GPU lưu trữ mọi thứ mà một mô hình ngôn ngữ cần ghi nhớ trong suốt cuộc trò chuyện.

Khi cửa sổ ngữ cảnh mở rộng đến hàng triệu token, những bộ nhớ đệm đó phình to thành hàng trăm gigabyte mỗi phiên. Đó mới là tắc nghẽn thực sự. Không phải sức mạnh tính toán mà là bộ nhớ thô.

Các phương pháp nén truyền thống cố gắng thu nhỏ những bộ nhớ đệm đó bằng cách làm tròn số xuống—từ số thực 32-bit xuống 16, xuống 8 đến số nguyên 4-bit, chẳng hạn. Để hiểu rõ hơn, hãy nghĩ đến việc thu nhỏ một hình ảnh từ 4K, xuống full HD, xuống 720p và vân vân. Thật dễ dàng để nhận ra đó là cùng một hình ảnh tổng thể, nhưng có nhiều chi tiết hơn ở độ phân giải 4K.

Vấn đề là: họ phải lưu trữ thêm "hằng số lượng tử hóa" bên cạnh dữ liệu đã nén để giữ cho mô hình không bị lỗi. Những hằng số đó thêm 1 đến 2 bit cho mỗi giá trị, một phần làm giảm lợi ích đạt được.

TurboQuant tuyên bố nó loại bỏ hoàn toàn chi phí đó.

Nó thực hiện điều này thông qua hai thuật toán phụ. PolarQuant tách độ lớn khỏi hướng trong vectơ, và QJL (Quantized Johnson-Lindenstrauss) lấy lỗi dư nhỏ còn lại và giảm nó xuống một bit dấu duy nhất, dương hoặc âm, với không hằng số được lưu trữ.

Kết quả, Google cho biết, là một công cụ ước lượng không thiên lệch về mặt toán học cho các phép tính chú ý điều khiển các mô hình transformer.

Trong các bài kiểm tra sử dụng Gemma và Mistral, TurboQuant đạt hiệu suất độ chính xác đầy đủ dưới mức nén 4x, bao gồm độ chính xác truy xuất hoàn hảo trong các tác vụ tìm kim trong đống cỏ khô lên đến 104,000 token.

Để hiểu tại sao những bài kiểm tra đó quan trọng, việc mở rộng ngữ cảnh có thể sử dụng của mô hình mà không làm giảm chất lượng là một trong những vấn đề khó nhất trong triển khai LLM.

Bây giờ, chi tiết nhỏ.

"Không mất độ chính xác" áp dụng cho nén bộ nhớ đệm KV trong quá trình suy luận—không phải cho trọng số của mô hình. Nén trọng số là một vấn đề hoàn toàn khác, khó hơn. TurboQuant không chạm vào chúng.

Những gì nó nén là bộ nhớ tạm thời lưu trữ các phép tính chú ý giữa phiên, điều này dễ dàng hơn vì dữ liệu đó về lý thuyết có thể được tái tạo lại.

Cũng có khoảng cách giữa một bài kiểm tra sạch và một hệ thống sản xuất phục vụ hàng tỷ yêu cầu. TurboQuant đã được thử nghiệm trên các mô hình mã nguồn mở—Gemma, Mistral, Llama—không phải trên ngăn xếp Gemini của chính Google ở quy mô lớn.

Không giống như lợi ích hiệu quả của DeepSeek, đòi hỏi các quyết định kiến trúc sâu được tích hợp ngay từ đầu, TurboQuant không yêu cầu đào tạo lại hoặc tinh chỉnh và tuyên bố chi phí thời gian chạy không đáng kể. Về lý thuyết, nó có thể áp dụng trực tiếp vào các đường ống suy luận hiện có.

Đó là phần làm khu vực phần cứng bộ nhớ lo lắng—bởi vì nếu nó hoạt động trong sản xuất, mọi phòng thí nghiệm AI lớn sẽ chạy tinh gọn hơn trên cùng những GPU mà họ đã sở hữu.

Bài báo sẽ được trình bày tại ICLR 2026. Cho đến khi nó được triển khai trong sản xuất, tiêu đề "không mất mát" vẫn còn trong phòng thí nghiệm.

Bản tin Daily Debrief

Bắt đầu mỗi ngày với các tin tức hàng đầu ngay bây giờ, cùng với các tính năng gốc, podcast, video và nhiều hơn nữa.

Nguồn: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Cơ hội thị trường
Logo Major
Giá Major(MAJOR)
$0.0654
$0.0654$0.0654
+0.56%
USD
Biểu đồ giá Major (MAJOR) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ [email protected] để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.