Postingan Google Mengecilkan Memori AI Tanpa Kehilangan Akurasi—Tapi Ada Tangkapannya muncul di BitcoinEthereumNews.com. Singkatnya, Google mengatakan algoritma TurboQuant-nya dapatPostingan Google Mengecilkan Memori AI Tanpa Kehilangan Akurasi—Tapi Ada Tangkapannya muncul di BitcoinEthereumNews.com. Singkatnya, Google mengatakan algoritma TurboQuant-nya dapat

Google Memperkecil Memori AI Tanpa Kehilangan Akurasi—Tapi Ada Tangkapannya

2026/03/26 07:33
durasi baca 3 menit
Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di [email protected]

Ringkasan

  • Google mengatakan algoritma TurboQuant-nya dapat mengurangi hambatan memori AI utama setidaknya enam kali lipat tanpa kehilangan akurasi selama inferensi.
  • Saham memori termasuk Micron, Western Digital dan Seagate turun setelah makalah tersebut beredar.
  • Metode ini mengompresi memori inferensi, bukan bobot model, dan hanya diuji dalam tolok ukur penelitian.

Google Research menerbitkan TurboQuant pada hari Rabu, sebuah algoritma kompresi yang menyusutkan hambatan memori-inferensi utama setidaknya 6x sambil mempertahankan nol kehilangan akurasi.

Makalah ini dijadwalkan untuk dipresentasikan di ICLR 2026, dan reaksi online segera muncul.

CEO Cloudflare Matthew Prince menyebutnya sebagai momen DeepSeek Google. Harga saham memori, termasuk Micron, Western Digital, dan Seagate, turun pada hari yang sama.

Jadi apakah ini nyata?

Efisiensi kuantisasi adalah pencapaian besar dengan sendirinya. Tetapi "nol kehilangan akurasi" memerlukan konteks.

TurboQuant menargetkan cache KV—bagian memori GPU yang menyimpan semua yang perlu diingat oleh model bahasa selama percakapan.

Saat jendela konteks tumbuh menuju jutaan token, cache tersebut membengkak menjadi ratusan gigabyte per sesi. Itulah hambatan sebenarnya. Bukan kekuatan komputasi tetapi memori mentah.

Metode kompresi tradisional mencoba menyusutkan cache tersebut dengan membulatkan angka ke bawah—dari float 32-bit ke 16, ke integer 8 hingga 4-bit, misalnya. Untuk lebih memahaminya, bayangkan menyusutkan gambar dari 4K, ke full HD, ke 720p dan seterusnya. Mudah untuk mengatakan itu adalah gambar yang sama secara keseluruhan, tetapi ada lebih banyak detail dalam resolusi 4K.

Masalahnya: mereka harus menyimpan "konstanta kuantisasi" tambahan di samping data terkompresi agar model tidak menjadi bodoh. Konstanta tersebut menambahkan 1 hingga 2 bit per nilai, sebagian mengikis keuntungan.

TurboQuant mengklaim menghilangkan overhead itu sepenuhnya.

Ia melakukan ini melalui dua sub-algoritma. PolarQuant memisahkan magnitudo dari arah dalam vektor, dan QJL (Quantized Johnson-Lindenstrauss) mengambil kesalahan residu kecil yang tersisa dan menguranginya menjadi satu bit tanda, positif atau negatif, dengan nol konstanta tersimpan.

Hasilnya, kata Google, adalah estimator yang tidak bias secara matematis untuk kalkulasi perhatian yang menggerakkan model transformer.

Dalam tolok ukur menggunakan Gemma dan Mistral, TurboQuant menyamai kinerja presisi penuh di bawah kompresi 4x, termasuk akurasi pengambilan sempurna pada tugas jarum dalam tumpukan jerami hingga 104.000 token.

Untuk konteks mengapa tolok ukur tersebut penting, memperluas konteks model yang dapat digunakan tanpa kehilangan kualitas telah menjadi salah satu masalah tersulit dalam penerapan LLM.

Sekarang, cetakan kecilnya.

"Nol kehilangan akurasi" berlaku untuk kompresi cache KV selama inferensi—bukan untuk bobot model. Mengompresi bobot adalah masalah yang sepenuhnya berbeda dan lebih sulit. TurboQuant tidak menyentuh itu.

Yang dikompresnya adalah memori sementara yang menyimpan komputasi perhatian pertengahan sesi, yang lebih permisif karena data tersebut secara teoritis dapat direkonstruksi.

Ada juga kesenjangan antara tolok ukur yang bersih dan sistem produksi yang melayani miliaran permintaan. TurboQuant diuji pada model sumber terbuka—Gemma, Mistral, Llama—bukan stack Gemini milik Google sendiri dalam skala besar.

Tidak seperti peningkatan efisiensi DeepSeek, yang memerlukan keputusan arsitektural mendalam yang dipanggang sejak awal, TurboQuant tidak memerlukan pelatihan ulang atau penyetelan halus dan mengklaim overhead waktu proses yang dapat diabaikan. Secara teori, ia langsung masuk ke dalam jalur inferensi yang ada.

Itulah bagian yang menakuti sektor perangkat keras memori—karena jika berhasil dalam produksi, setiap lab AI besar berjalan lebih ramping pada GPU yang sama yang sudah mereka miliki.

Makalah ini masuk ke ICLR 2026. Sampai dikirim dalam produksi, judul "nol kehilangan" tetap di lab.

Newsletter Daily Debrief

Mulai setiap hari dengan berita utama saat ini, ditambah fitur asli, podcast, video dan lainnya.

Sumber: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Peluang Pasar
Logo Major
Harga Major(MAJOR)
$0.06528
$0.06528$0.06528
+0.38%
USD
Grafik Harga Live Major (MAJOR)
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.