NVIDIA Meluncurkan Endpoint yang Dipercepat GPU untuk Model Kimi K2.5 dari Moonshot AI
Jessie A Ellis 04 Feb 2026 20:11
NVIDIA kini menawarkan akses API yang dipercepat GPU gratis ke Kimi K2.5, model AI multimodal dengan parameter 1T yang memiliki 384 ahli dan panjang konteks 262K untuk pengembang.
NVIDIA telah meluncurkan endpoint yang dipercepat GPU untuk Kimi K2.5 dari Moonshot AI, memberikan pengembang akses API gratis ke salah satu model multimodal open-source paling mumpuni yang tersedia saat ini. Integrasi yang diumumkan pada 4 Februari 2026 ini memposisikan model dengan parameter 1 triliun untuk adopsi enterprise yang cepat melalui platform build.nvidia.com milik NVIDIA.
Kimi K2.5 memiliki spesifikasi teknis yang serius dan penting untuk deployment produksi. Model ini menggunakan arsitektur Mixture-of-Experts dengan 384 ahli, mengaktifkan hanya 32,86 miliar parameter per token—tingkat aktivasi 3,2% yang menjaga biaya inferensi tetap terkendali meskipun jumlah parameternya sangat besar. Panjang konteks mencapai 262.000 token, menangani analisis dokumen substansial dan percakapan yang diperpanjang.
Kemampuan visinya patut diperhatikan. Moonshot membangun MoonViT3d Vision Tower khusus yang memproses gambar dan frame video menjadi embedding, didukung oleh kosakata 164.000 token yang berisi token khusus visi. Ini bukan multimodalitas yang ditambahkan—ini merupakan bagian asli dari arsitekturnya.
Apa yang Didapat Pengembang
Akses prototyping gratis melalui Program Pengembang NVIDIA berarti tim dapat menguji terhadap beban kerja produksi sebelum mengkomitkan infrastruktur. API mengikuti pola yang kompatibel dengan OpenAI, termasuk dukungan pemanggilan alat untuk alur kerja agentik. Layanan mikro NVIDIA NIM untuk inferensi produksi yang dikontainerisasi akan segera hadir, meskipun tidak ada jadwal spesifik yang diberikan.
Untuk deployment self-hosted, integrasi vLLM sudah siap sekarang. NVIDIA juga mengonfirmasi dukungan fine-tuning melalui NeMo Framework open-source, menggunakan NeMo AutoModel untuk menyesuaikan model langsung dari checkpoint Hugging Face tanpa langkah konversi.
Konteks Pasar
Moonshot AI merilis Kimi K2.5 pada 27 Januari 2026, melatihnya dengan sekitar 15 triliun token campuran visual dan teks yang dibangun di atas fondasi K2 sebelumnya. Model ini telah menarik perbandingan langsung dengan Gemini 3 Pro dari Google, memposting benchmark yang kompetitif termasuk skor 78,5% pada tes pemahaman visual MMMU-Pro dan 76,8% pada SWE-Bench Verified untuk tugas coding.
Satu fitur pembeda: mekanisme "Agent Swarm" yang mengoordinasikan hingga 100 sub-agen paralel, dilaporkan memangkas waktu eksekusi sebesar 4,5x dibandingkan pendekatan agen tunggal. Untuk enterprise yang membangun sistem otonom kompleks, ini adalah kesenjangan kemampuan yang berarti.
Dukungan arsitektur Blackwell dari NVIDIA menunjukkan bahwa perusahaan melihat Kimi K2.5 sebagai pesaing serius dalam deployment AI enterprise. Pengembang dapat mengakses model ini segera melalui build.nvidia.com atau melalui Platform API Kimi langsung dari Moonshot.
Sumber gambar: Shutterstock- nvidia
- kimi k2.5
- moonshot ai
- multimodal ai
- gpu computing

