EDMONTON, KANADA – 28 JANUARI: Seorang wanita memegang ponsel di depan layar komputer yang menampilkan logo DeepSeek, pada 28 Januari 2025, di Edmonton, Kanada. (Foto oleh Artur Widak/NurPhoto via Getty Images)
NurPhoto via Getty Images
DeepSeek V4, pembaruan yang telah lama ditunggu-tunggu dari DeepSeek, hadir di momen persaingan yang sangat ketat, ketika GPT 5.5 dari Open AI dan Opus 4.7 dari Anthropic baru saja diluncurkan satu demi satu. Perlombaan model AI tampaknya mencapai level baru. Sebagai pendukung setia alat open source, DeepSeek mengesankan para pengembang dengan efisiensi biayanya daripada skala mentah.
Rilis pratinjau ini mencakup dua model Mixture-of-Experts dengan jendela konteks satu juta token: DeepSeek-V4-Pro, dengan total 1,6 triliun parameter dan 49 miliar parameter yang diaktifkan, serta DeepSeek-V4-Flash, dengan total 284 miliar parameter dan 13 miliar parameter yang diaktifkan.
Agen long-context, asisten coding, alat riset, dan copilot enterprise semuanya menghadapi hambatan yang sama: setiap token yang baru dibuat mungkin perlu merujuk kembali ke riwayat dokumen, kode, panggilan alat, dan penalaran perantara yang terus bertumbuh. Laporan teknis DeepSeek menunjukkan bahwa model V4-nya mengatasi masalah ini melalui kompresi arsitektur daripada sekadar meminta pengguna membayar lebih banyak untuk komputasi.
Inovasi Inti: Mengompresi Memori Tanpa Kehilangan Kemampuan Penalaran
Perubahan arsitektur terpenting dari DeepSeek V4 adalah desain perhatian hibrida yang menggabungkan Compressed Sparse Attention, atau CSA, dengan Heavily Compressed Attention, atau HCA. Artinya, model tidak menyimpan dan memindai setiap token sebelumnya dengan cara yang sama mahalnya. CSA mengompresi kelompok entri key-value dan kemudian memilih blok terkompresi yang paling relevan. HCA mengompresi lebih agresif lagi, memungkinkan perhatian padat atas aliran memori yang jauh lebih pendek.
Hal ini penting karena perhatian adalah salah satu pendorong biaya utama dalam AI long-context. Seiring bertumbuhnya panjang konteks, perhatian konvensional menjadi semakin mahal baik dalam komputasi maupun memori. Desain perhatian hibrida DeepSeek memperlakukan konteks panjang sebagai masalah rekayasa hierarki memori. Beberapa informasi memerlukan perhatian lokal yang terperinci. Sebagian lagi dapat dikompresi. Dengan menggabungkan mode-mode ini, V4 menjadikan konteks satu juta token sebagai kemampuan yang lebih praktis. Awal tahun ini, para peneliti DeepSeek menerbitkan sebuah makalah yang mengusulkan Engram, modul memori kondisional yang meningkatkan efisiensi penalaran dengan memisahkan secara struktural pengambilan pengetahuan statis dari komputasi dinamis.
Mengapa Hal Ini Dapat Mendorong Lebih Banyak Inovasi AI
Biaya inferensi yang lebih rendah mengubah siapa yang bisa bereksperimen. Ketika penalaran long-context menjadi lebih murah, lebih banyak pengembang dapat membangun agen yang membaca repositori lengkap, menganalisis catatan hukum yang panjang, membandingkan pengajuan keuangan multi-dokumen, atau beroperasi dalam sesi penggunaan alat yang diperpanjang. Hal ini memperluas ruang desain melampaui perintah chatbot.
Bagi startup, DeepSeek V4 menurunkan biaya untuk mencoba aplikasi yang ambisius. Bagi perusahaan, hal ini membuat alur kerja large-context menjadi lebih realistis. Bagi pengembang open source, ini memberikan resep teknis: gabungkan sparsitas MoE, kompresi long-context, inferensi presisi rendah, kernel kustom, dan post-training untuk tugas-tugas agentik.
Pesan Hardware: Model AI Kini Memberitahu Chip Apa yang Harus Menjadi
DeepSeek V4 juga patut diperhatikan karena laporan teknisnya memberikan saran eksplisit tentang desain hardware. Tim tersebut berpendapat bahwa hardware masa depan harus mengoptimalkan rasio antara komputasi dan komunikasi, daripada sekadar meningkatkan bandwidth secara membabi buta.
Reuters juga melaporkan bahwa DeepSeek V4 telah diadaptasi untuk berjalan di chip Ascend Huawei, dan Huawei menyatakan bahwa kluster supernode berbasis Ascend 950-nya mendukung penuh seri V4. Hal ini menjadikan V4 bagian dari cerita hardware yang lebih besar. Perlombaan AI bergerak dari bobot model ke co-design full-stack, di mana model, kernel, sistem memori, interkoneksi, dan chip berevolusi bersama.
Kecerdasan yang Lebih Murah Memperluas Pasar
Konsekuensi terpenting dari DeepSeek V4 mungkin bersifat ekonomis. Ketika biaya penalaran long-context turun, kasus penggunaan AI yang dulunya tampak terlalu mahal menjadi lebih masuk akal. Agen full-codebase, asisten riset jangka panjang, alur kerja hukum yang sarat dokumen, alat uji tuntas keuangan, sistem tinjauan literatur ilmiah, dan agen pengetahuan enterprise semuanya mendapat manfaat dari memori yang lebih murah dan inferensi yang lebih murah.
Ini berarti bahwa DeepSeek V4 membingkai ulang perlombaan AI. Jika DeepSeek dapat menghadirkan model open yang kuat dengan kebutuhan memori dan komputasi yang lebih rendah, para pemimpin closed-source akan menghadapi lebih banyak tekanan untuk membenarkan harga premium. Pesaing open-source akan menghadapi tekanan untuk menyamai teknik efisiensi V4.
Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/





