Raksasa chip NVIDIA bersiap untuk meluncurkan prosesor kecerdasan buatan baru yang kuat yang dirancang untuk mempercepat cara chatbot dan alat AI lainnya menghasilkan respons, yang berpotensi membuat sistem saat ini seperti ChatGPT terlihat lambat sebagai perbandingan.
Platform baru ini, yang diharapkan debut di konferensi pengembang GTC tahunan NVIDIA, dioptimalkan untuk inferensi AI, tahap ketika model terlatih menghasilkan jawaban untuk permintaan pengguna. Tidak seperti GPU tradisional yang dibangun untuk menangani pelatihan dan inferensi, prosesor yang akan datang berfokus secara khusus pada pengiriman respons lebih cepat dan lebih efisien.
Produk ini, jika diluncurkan, akan menandai hasil nyata pertama dari kesepakatan Desember yang membawa pendiri Groq ke dalam perusahaan, yang perusahaannya berspesialisasi dalam perangkat keras pemrosesan AI berkecepatan tinggi.
Akhir tahun lalu, NVIDIA dilaporkan menghabiskan sekitar $20 miliar untuk melisensikan teknologi dari startup chip Groq dan merekrut personel kunci, termasuk CEO-nya. Sekitar waktu yang sama, CEO NVIDIA Jensen Huang memberi tahu karyawan, "Kami berencana untuk mengintegrasikan prosesor latensi rendah Groq ke dalam arsitektur pabrik AI NVIDIA, memperluas platform untuk melayani rentang yang lebih luas dari inferensi AI dan beban kerja waktu nyata."
Sekarang, chip inferensi baru diharapkan menangani kueri AI yang kompleks dengan kecepatan tinggi, dengan OpenAI dan klien terkemuka lainnya kemungkinan akan mengadopsinya, menurut The Wall Street Journal. Laporannya juga menunjukkan bahwa chip baru mungkin menangani hampir 10% dari beban kerja inferensi OpenAI.
Chip bergaya Groq akan menggunakan SRAM, kata sumber
Selama panggilan pendapatan baru-baru ini, CEO NVIDIA mengisyaratkan bahwa beberapa produk baru akan diluncurkan di acara GTC mendatang, sering digambarkan sebagai "Super Bowl AI." Dia telah berkomentar, "Saya punya beberapa ide bagus yang ingin saya bagikan dengan Anda di GTC."
Sebagian besar analis setuju bahwa chip bergaya Groq bisa menjadi bagian dari jajaran produk. Mereka juga menyatakan bahwa desainnya dapat menjelaskan bagaimana NVIDIA bertujuan untuk mengatasi kendala memori dalam komputasi inferensi. Platform semacam itu biasanya berjalan pada memori bandwidth tinggi (HBM). Namun, HBM telah sulit diperoleh akhir-akhir ini.
Orang dalam telah mengklaim perusahaan berencana menggunakan SRAM dalam chip daripada RAM dinamis yang terkait dengan HBM. Idealnya, SRAM lebih mudah diakses dan dapat meningkatkan kinerja beban kerja penalaran AI.
Jika chip diluncurkan, itu bisa menjadi langkah maju yang besar untuk perusahaan chip dan model terlatih AI. Namun, berbicara tentang kemungkinan peluncurannya, Sid Sheth, pendiri dan CEO d-Matrix, membayangi pengembangannya. Dia mencatat bahwa sementara NVIDIA tetap menjadi pemimpin yang jelas dalam pelatihan AI, inferensi mewakili lanskap yang sangat berbeda. Dia berbagi: "Pengembang dapat beralih ke pesaing selain NVIDIA karena menjalankan model AI yang sudah jadi tidak memerlukan jenis pemrograman yang sama seperti melatih mereka."
Namun demikian, raksasa teknologi lain juga memajukan komputasi inferensi. Meta minggu ini meluncurkan empat prosesor yang disesuaikan untuk inferensi, mendorong investor Silicon Valley untuk mengatakan industri mungkin memasuki fase non-"dominan NVIDIA".
Namun, baru-baru ini, June Paik, chief executive FuriosaAI, saingan NVIDIA, berkomentar tentang manfaat komputasi inferensi yang mudah diterapkan, memperingatkan bahwa sebagian besar pusat data tidak dapat menampung GPU berpendingin cair terbaru.
Meskipun demikian, terlepas dari kekhawatirannya, analis Bank of America memperkirakan beban kerja inferensi akan mewakili 75% dari pengeluaran pusat data AI pada tahun 2030, ketika pasar mencapai sekitar $1,2 triliun, naik dari sekitar 50% tahun lalu. Ben Bajarin, analis teknologi di Creative Strategies, juga menegaskan bahwa pusat data masa depan tidak akan sesuai dengan model satu ukuran untuk semua, mengantisipasi bahwa perusahaan akan mengambil pendekatan yang berbeda untuk pengembangan chip dan fasilitas.
NVIDIA diharapkan merilis chip Vera Rubin di akhir tahun 2026
NVIDIA juga baru-baru ini meluncurkan chip AI generasi berikutnya, chip AI Vera Rubin, mengantisipasi bahwa kebangkitan platform AI penalaran seperti DeepSeek akan mendorong permintaan komputasi yang lebih besar. Perusahaan mengklaim chip tersebut akan membantu melatih model AI yang lebih besar dan memberikan output yang lebih canggih kepada basis pengguna yang lebih luas.
Menurut Huang, Rubin juga akan memasuki pasar pada paruh kedua tahun 2026, dengan versi "ultra" high-end datang pada tahun 2027.
Dia juga menjelaskan bahwa satu sistem Rubin akan menggabungkan 576 GPU individual menjadi satu chip. Saat ini, chip Blackwell NVIDIA mengelompokkan 72 GPU dalam sistem NVL72-nya, yang berarti Rubin akan menampilkan memori yang lebih canggih.
Sumber: https://www.cryptopolitan.com/nvidias-chip-could-make-chatgpt-look-slow/

