NVIDIA Meluncurkan Superkomputer AI Vera Rubin POD 40-Rack untuk Beban Kerja Agentic
Iris Coleman 16 Mar 2026 19:48
NVIDIA mengumumkan Vera Rubin POD yang menampilkan 1.152 GPU di 40 rack, menghadirkan 60 exaflops dan performa inferensi 10x lebih baik per watt dibanding Blackwell.
NVIDIA baru saja merilis spesifikasi infrastruktur AI paling ambisius mereka. Vera Rubin POD mengemas 1.152 GPU Rubin di 40 rack, menghadirkan 60 exaflops daya komputasi dan 10 petabyte per detik total bandwidth scale-up. Unit produksi akan dikirim pada paruh kedua 2026.
Angka-angkanya mengejutkan: 1,2 kuadriliun transistor, hampir 20.000 die NVIDIA, semuanya direkayasa untuk berfungsi sebagai satu superkomputer yang koheren. NVIDIA mengklaim performa pelatihan 4x lebih baik dan performa inferensi 10x lebih baik per watt dibandingkan arsitektur Blackwell saat ini—dengan biaya token turun menjadi sepersepuluh dari tingkat saat ini.
Lima Sistem Rack yang Dibangun Khusus
POD menggabungkan lima sistem skala rack yang berbeda, masing-masing menargetkan bottleneck spesifik dalam beban kerja AI modern:
Vera Rubin NVL72 berfungsi sebagai mesin komputasi inti. Setiap rack mengintegrasikan 72 GPU Rubin dan 36 CPU Vera yang terhubung melalui NVLink 6, yang mendorong bandwidth 3,6 TB/s per GPU—lebih banyak total bandwidth daripada seluruh internet global, menurut NVIDIA. Sistem ini menargetkan keempat hukum penskalaan AI: pretraining, post-training, test-time scaling, dan agentic scaling.
Rack Groq 3 LPX mengatasi masalah latensi. Dengan 256 unit pemrosesan bahasa per rack menggunakan arsitektur khusus SRAM, ini dipasangkan dengan NVL72 untuk menghadirkan apa yang diklaim NVIDIA sebagai 35x lebih banyak token dan 10x lebih banyak peluang pendapatan untuk model triliun-parameter versus Blackwell.
Rack CPU Vera menyediakan lingkungan sandbox untuk pengujian agen. Satu rack menopang lebih dari 22.500 lingkungan pembelajaran penguatan bersamaan—kritis untuk memvalidasi output AI agentic sebelum deployment.
Rack BlueField-4 STX memperkenalkan apa yang disebut NVIDIA sebagai "penyimpanan AI-native" melalui platform memori konteks CMX. Dengan memindahkan KV cache ke penyimpanan bandwidth tinggi khusus, sistem mengklaim 5x lebih tinggi token-per-detik dan 5x efisiensi daya lebih baik daripada pendekatan tradisional.
Rack jaringan Spectrum-6 SPX mengikat semuanya bersama dengan switch 102,4 Tb/s yang menampilkan optik co-packaged.
Argumen Ekonomi Token
NVIDIA membingkai ini di sekitar realitas pasar spesifik: konsumsi token sekarang melebihi 10 kuadriliun per tahun, dan pergeseran dari interaksi manusia-AI ke AI-AI akan mempercepat pertumbuhan itu secara dramatis. Sistem agentic modern menghasilkan volume token reasoning yang masif sambil memperluas kebutuhan KV cache—tepat bottleneck yang ditargetkan arsitektur ini.
Benchmark SemiAnalysis InferenceMax pihak ketiga yang dikutip oleh NVIDIA menunjukkan sistem Blackwell saat ini sudah menghadirkan performa 50x lebih baik per watt dan biaya 35x lebih rendah per token dibandingkan H200. Vera Rubin bertujuan memperluas keunggulan itu.
Rekayasa Termal dan Daya
Arsitektur rack MGX generasi ketiga memperkenalkan Intelligent Power Smoothing dengan penyimpanan energi tingkat rack 6x lebih banyak (400 joule per GPU) daripada generasi sebelumnya. Ini mengurangi permintaan arus puncak hingga 25% dan menghilangkan kebutuhan akan paket baterai besar.
Semua rack beroperasi pada suhu inlet air hangat 45°C, memungkinkan pusat data di banyak iklim menggunakan pendinginan udara ambient. NVIDIA mengklaim ini membebaskan cukup daya untuk menambahkan 10% lebih banyak rack dalam anggaran daya fasilitas yang sama.
Melihat ke Depan
Selain konfigurasi POD awal, NVIDIA mempratinjau Vera Rubin Ultra NVL576 yang diskalakan menjadi 576 GPU di delapan rack, dan arsitektur generasi berikutnya Kyber yang menargetkan NVL1152 dengan 144 GPU per rack. Roadmap menunjukkan NVIDIA melihat domain NVLink multi-rack sebagai masa depan infrastruktur AI—bukan hanya GPU yang lebih besar, tetapi arsitektur sistem yang secara fundamental berbeda.
Untuk perusahaan yang merencanakan investasi infrastruktur AI, pesannya jelas: ekonomi komputasi AI bergeser dari optimasi tingkat chip ke tingkat fasilitas. Mereka yang membangun pusat data sekarang menghadapi pilihan antara sistem generasi saat ini dan menunggu ketersediaan Vera Rubin pada akhir 2026.
Sumber gambar: Shutterstock- nvidia
- infrastruktur ai
- vera rubin
- pusat data
- ai perusahaan



