NVIDIA Nemotron 3 Super Hadir di Together AI dengan Jendela Konteks 1 Juta Token
Jessie A Ellis 11 Mar 2026 21:43
Model NVIDIA Nemotron 3 Super dengan 120 miliar parameter kini tersedia di Together AI, menawarkan peningkatan throughput 5x untuk sistem AI multi-agen dan beban kerja enterprise.
Together AI mengumumkan ketersediaan NVIDIA Nemotron 3 Super di platform Dedicated Inference-nya pada 11 Maret, memberikan pengembang enterprise akses ke model reasoning 120 miliar parameter yang dioptimalkan untuk sistem AI multi-agen. Saham NVIDIA diperdagangkan pada $186,03, naik 0,66% setelah berita ini.
Waktunya penting. Nemotron 3 Super merupakan model open-weight kedua NVIDIA dalam keluarga Nemotron 3, menyusul peluncuran Nano pada Desember, dan menargetkan titik masalah spesifik dalam AI produksi: overhead komputasi untuk menjalankan alur kerja agen kompleks dalam skala besar.
Mengapa Arsitekturnya Penting
Inilah yang membuat model ini berbeda dari perlombaan jumlah parameter pada umumnya. Meskipun total parameternya 120 miliar, hanya 12 miliar yang aktif selama inferensi. Desain hybrid—menggabungkan attention Transformer dengan pemrosesan urutan Mamba—menghasilkan apa yang diklaim NVIDIA sebagai throughput 5x lebih tinggi dibandingkan model Nemotron Super sebelumnya.
Jendela konteks 1 juta token mengatasi apa yang pengembang sebut "ledakan konteks". Aplikasi multi-agen dapat mengonsumsi 15x lebih banyak token daripada interaksi chat standar, dan sebagian besar model tidak mampu menangani beban tersebut. Nemotron 3 Super menangani seluruh basis kode, penyimpanan dokumen yang panjang, dan lintasan agen yang diperpanjang tanpa penurunan performa.
Pelatihan Multi-Token Prediction memungkinkan model menghasilkan beberapa token secara bersamaan per forward pass. Untuk generasi kode atau output terstruktur, NVIDIA melaporkan generasi token 50% lebih cepat dibandingkan model open terkemuka.
Langkah Together AI
Menjalankan model hybrid 120 miliar dengan konteks jutaan token biasanya memerlukan komputasi terdistribusi di beberapa node. Penawaran Dedicated Inference Together AI menyederhanakan deployment ke GPU NVIDIA H200 atau H100 tunggal—tanpa memerlukan provisioning GPU di sisi pengembang.
Platform ini menjanjikan SLA uptime 99,9% dan kepatuhan SOC 2, memposisikan ini sebagai infrastruktur siap-enterprise daripada eksperimen tingkat riset.
Aplikasi Produksi
Kasus penggunaan target mencakup asisten pengembang yang menganalisis basis kode, sistem pemrosesan dokumen enterprise, triase kerentanan keamanan siber, dan lapisan orkestrasi yang merutekan tugas di seluruh agen terspesialisasi.
Pendekatan open-weights—dirilis di bawah NVIDIA Nemotron Open Model License—memungkinkan tim untuk fine-tune untuk lingkungan spesifik dan deploy on-premise, pertimbangan kritis bagi enterprise dengan persyaratan kedaulatan data.
NVIDIA juga mengumumkan NemoClaw pada 10 Maret, platform open-source untuk agen AI yang dapat melengkapi deployment Nemotron 3 Super. Pengembang dapat mengakses model melalui tier inferensi khusus Together AI segera.
Sumber gambar: Shutterstock- nvidia
- infrastruktur ai
- nemotron
- together ai
- enterprise ai


