Gemini 3 Pro dipresentasikan sebagai model Google yang paling «masuk akal», dan perusahaan secara terbuka memposisikan solusinya sebagai pemimpin industri dalam banyak hal. Evaluasi independen mengkonfirmasi hal ini.
Menurut Artificial Analysis, model ini telah menjadi pemimpin baru dalam indeks integral mereka.
Indeks AI dari Artificial Analysis. Data: Artificial Analysis.
Jika tes Artificial Analysis dapat dipercaya, Google telah memimpin dibandingkan pesaingnya dalam bidang tugas cerdas — penalaran, pemahaman struktur kompleks, akurasi dan multimodalitas.
Kinerja dalam Analisis Mendalam layak mendapat perhatian khusus. Pada Humanity's Last Exam, yang menilai kemampuan model untuk menyelesaikan masalah tingkat doktoral tanpa alat bantu, Gemini 3 Pro mendapat skor lebih dari 37%.
Ini lebih dari sepuluh poin persentase lebih tinggi dari rekor sebelumnya. Pada ARC-AGI-2, salah satu benchmark paling menantang yang menilai kemampuan untuk menurunkan aturan dan menerapkannya pada situasi baru, model ini juga mendapat skor di atas sebagian besar pesaing.
Hasil dari sepuluh tes khusus dari Artificial Analysis. Data: Artificial Analysis.
Kinerja tinggi juga terlihat dalam tes matematika, tegas Google. Dalam tes MathArena Apex, di mana pertanyaan dengan tingkat kompleksitas ekstrem secara tradisional membuat model kehilangan keseimbangan, Gemini 3 Pro menerima 23,4%. Sebelumnya, angka ini tidak dapat dicapai oleh sistem lain, dan hasil terbaik tidak melebihi 5,2%.
Hasil tes MathArena Apex. Data: MathArena.
Dalam tes multimodal, Gemini yang diperbarui juga mengambil posisi pertama. Para ahli secara langsung mengaitkan ini dengan skala model yang berpotensi besar.
Hipotesis ini akan menjelaskan kemampuan AI Google untuk mengungguli produk dari perusahaan lain dalam tugas yang melibatkan analisis visual dan pemahaman spasial.
Secara terpisah, perbandingan dengan Claude dan ChatGPT patut dicatat. Pada benchmark SWE-Bench Verified, yang menguji kemampuan untuk menangani tugas GitHub secara otonom, model baru ini tertinggal dari Sonnet 4.5 hanya satu persen. Dalam metrik lain, Gemini sering kali unggul.
Hasil tes perbandingan dari berbagai model AI. Data: Google.
Bukti penting lainnya adalah kecepatan model. Artificial Analysis mencatat bahwa Gemini 3 Pro menghasilkan sekitar 128 token per detik. Ini lebih cepat dari kinerja GPT-5.1, Kimi K2 Thinking, dan Grok 4.
Ini kemungkinan besar karena platform perangkat keras Google sendiri yang berbasis prosesor Tensor Processing Unit (TPU).
Dengan demikian, dalam sejumlah parameter, model ini dengan percaya diri bersaing dengan flagship yang ada dan dalam banyak kasus mengungguli mereka. Pada saat yang sama, produk ini tertinggal dari pesaingnya dalam beberapa tes, tetapi biasanya hanya sedikit.

Data teknis Gemini 3 Pro. Data: Google.
Deskripsi fitur baru di Gemini 3 Pro. Data: Google.
Tes Vending-Bench 2. Data: Google.


