Google Memperkecil Memori AI Tanpa Kehilangan Akurasi—Tapi Ada Tangkapannya

Ringkasan

Google mengatakan algoritma TurboQuant-nya dapat mengurangi hambatan memori AI utama setidaknya enam kali lipat tanpa kehilangan akurasi selama inferensi.
Saham memori termasuk Micron, Western Digital dan Seagate turun setelah makalah tersebut beredar.
Metode ini mengompresi memori inferensi, bukan bobot model, dan hanya diuji dalam tolok ukur penelitian.

Google Research menerbitkan TurboQuant pada hari Rabu, sebuah algoritma kompresi yang menyusutkan hambatan memori-inferensi utama setidaknya 6x sambil mempertahankan nol kehilangan akurasi.

Makalah ini dijadwalkan untuk dipresentasikan di ICLR 2026, dan reaksi online segera muncul.

CEO Cloudflare Matthew Prince menyebutnya sebagai momen DeepSeek Google. Harga saham memori, termasuk Micron, Western Digital, dan Seagate, turun pada hari yang sama.

Jadi apakah ini nyata?

Efisiensi kuantisasi adalah pencapaian besar dengan sendirinya. Tetapi "nol kehilangan akurasi" memerlukan konteks.

TurboQuant menargetkan cache KV—bagian memori GPU yang menyimpan semua yang perlu diingat oleh model bahasa selama percakapan.

Saat jendela konteks tumbuh menuju jutaan token, cache tersebut membengkak menjadi ratusan gigabyte per sesi. Itulah hambatan sebenarnya. Bukan kekuatan komputasi tetapi memori mentah.

Metode kompresi tradisional mencoba menyusutkan cache tersebut dengan membulatkan angka ke bawah—dari float 32-bit ke 16, ke integer 8 hingga 4-bit, misalnya. Untuk lebih memahaminya, bayangkan menyusutkan gambar dari 4K, ke full HD, ke 720p dan seterusnya. Mudah untuk mengatakan itu adalah gambar yang sama secara keseluruhan, tetapi ada lebih banyak detail dalam resolusi 4K.

Masalahnya: mereka harus menyimpan "konstanta kuantisasi" tambahan di samping data terkompresi agar model tidak menjadi bodoh. Konstanta tersebut menambahkan 1 hingga 2 bit per nilai, sebagian mengikis keuntungan.

TurboQuant mengklaim menghilangkan overhead itu sepenuhnya.

Ia melakukan ini melalui dua sub-algoritma. PolarQuant memisahkan magnitudo dari arah dalam vektor, dan QJL (Quantized Johnson-Lindenstrauss) mengambil kesalahan residu kecil yang tersisa dan menguranginya menjadi satu bit tanda, positif atau negatif, dengan nol konstanta tersimpan.

Hasilnya, kata Google, adalah estimator yang tidak bias secara matematis untuk kalkulasi perhatian yang menggerakkan model transformer.

Dalam tolok ukur menggunakan Gemma dan Mistral, TurboQuant menyamai kinerja presisi penuh di bawah kompresi 4x, termasuk akurasi pengambilan sempurna pada tugas jarum dalam tumpukan jerami hingga 104.000 token.

Untuk konteks mengapa tolok ukur tersebut penting, memperluas konteks model yang dapat digunakan tanpa kehilangan kualitas telah menjadi salah satu masalah tersulit dalam penerapan LLM.

Sekarang, cetakan kecilnya.

"Nol kehilangan akurasi" berlaku untuk kompresi cache KV selama inferensi—bukan untuk bobot model. Mengompresi bobot adalah masalah yang sepenuhnya berbeda dan lebih sulit. TurboQuant tidak menyentuh itu.

Yang dikompresnya adalah memori sementara yang menyimpan komputasi perhatian pertengahan sesi, yang lebih permisif karena data tersebut secara teoritis dapat direkonstruksi.

Ada juga kesenjangan antara tolok ukur yang bersih dan sistem produksi yang melayani miliaran permintaan. TurboQuant diuji pada model sumber terbuka—Gemma, Mistral, Llama—bukan stack Gemini milik Google sendiri dalam skala besar.

Tidak seperti peningkatan efisiensi DeepSeek, yang memerlukan keputusan arsitektural mendalam yang dipanggang sejak awal, TurboQuant tidak memerlukan pelatihan ulang atau penyetelan halus dan mengklaim overhead waktu proses yang dapat diabaikan. Secara teori, ia langsung masuk ke dalam jalur inferensi yang ada.

Itulah bagian yang menakuti sektor perangkat keras memori—karena jika berhasil dalam produksi, setiap lab AI besar berjalan lebih ramping pada GPU yang sama yang sudah mereka miliki.

Makalah ini masuk ke ICLR 2026. Sampai dikirim dalam produksi, judul "nol kehilangan" tetap di lab.

Newsletter Daily Debrief

Mulai setiap hari dengan berita utama saat ini, ditambah fitur asli, podcast, video dan lainnya.

Sumber: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Google Memperkecil Memori AI Tanpa Kehilangan Akurasi—Tapi Ada Tangkapannya

Ringkasan

Jadi apakah ini nyata?

Newsletter Daily Debrief

Anda Mungkin Juga Menyukai

Pi Network Melemah ke $0,171, Pasar Menanti Efek Upgrade PiScan

Solana Terseret Gelombang Profit Taking, Harga SOL Jatuh ke Area $90

Zoomex Wanti-wanti Metrik Likuiditas Tradisional Mulai Gagal di Era Trading AI, Ada Apa?

Berita yang Sedang Tren

Pensiun dengan Bitcoin pada 2030, Strategi Finansial atau Sekadar Mimpi?

Bitcoin Turun di Bawah US$80.000, tapi 3 Tanda Peringatan Sudah Muncul Duluan

Metaplanet Catat Kerugian Q1 Sebesar US$725 Juta saat Kepemilikan Bitcoin Tembus 40.177 BTC

Exchange-Traded Fund (ETF) Bitcoin Catat Outflow Terbesar dalam Lebih dari 3 Bulan Sementara Dana Solana Terus Menunjukkan Kinerja Positif

Hanya 4% Pemilih AS Peduli pada Aset Kripto di Kotak Suara, Survei Baru Temukan

Berita Live 24/7

Bacaan Cepat

Tokenisasi RWA pada 2026: Cara Berinvestasi dalam Aset Dunia Nyata di Blockchain

Trump Mendarat di Beijing: Apa Arti KTT Xi untuk Crypto

Apakah UU CLARITY Dihancurkan? DEF Menyebut 16 Amandemen Berbahaya

5 Kartu Crypto Terbaik di 2026: Cashback Nyata vs. Klaim Pemasaran

Analisis Volatilitas BEEG 2026: Mengapa Gerakan Besar Mungkin Segera Hadir

Harga Kripto