ChatGPT mungkin mendominasi pasar chatbot AI, tetapi laporan baru menunjukkan popularitas tidak sama dengan kepercayaan. Sebuah studi Desember 2025 yang meneliti bagaimana chatbot AI terkemuka berkinerja dalam skenario kerja sehari-hari telah menempatkan ChatGPT sebagai opsi yang paling tidak dapat diandalkan untuk tugas profesional. Temuan ini menimbulkan kekhawatiran baru bagi bisnis yang semakin bergantung pada alat AI untuk operasi sehari-hari.
Studi yang dilakukan oleh Relum, tidak hanya melihat spesifikasi di atas kertas; mereka menguji secara intensif sepuluh chatbot AI utama dalam skenario profesional dunia nyata. Hasilnya? Kesenjangan besar antara hype dan realitas.
Studi ini menilai setiap chatbot berdasarkan empat kriteria utama. Ini adalah tingkat halusinasi, peringkat produk pelanggan, konsistensi respons di berbagai tugas, dan frekuensi downtime. Setiap faktor berkontribusi pada skor risiko keandalan komposit, dengan skor lebih tinggi menunjukkan potensi masalah tempat kerja yang lebih besar.
Inilah statistik yang seharusnya membuat para pemimpin bisnis tidak bisa tidur nyenyak: Meskipun mengendalikan 81% pasar dan memiliki peringkat pengguna yang tinggi, ChatGPT mencatat tingkat halusinasi sebesar 35%.
Dalam bahasa sederhana, itu berarti lebih dari satu dari setiap tiga jawaban yang diberikannya mengandung informasi yang dibuat-buat atau tidak benar. Jika Anda menggunakannya untuk menyusun novel fantasi, itu tidak masalah, tetapi jika Anda menggunakannya untuk laporan kepatuhan atau pengambilan keputusan keuangan, itu adalah resep bencana. Akibatnya, studi tersebut memberikan ChatGPT skor risiko keandalan 99 dari 99, yang terburuk dalam kelompok tersebut.
ChatGPT
Google tidak lebih baik. Sementara Gemini memiliki uptime yang lebih baik, sebenarnya berkinerja lebih buruk dalam akurasi murni, mencatat tingkat halusinasi tertinggi dari seluruh kelompok sebesar 38%. Ini menyoroti paradoks aneh di pasar AI saat ini: alat yang paling sering kita gunakan sering kali adalah yang paling sulit untuk menjaga fakta mereka tetap benar.
Claude dan Meta AI menempati posisi tengah yang tidak jelas. Claude, meskipun menjadi favorit karena gaya penulisannya, diperingkat sebagai yang kedua paling tidak dapat diandalkan karena downtime yang sering dan tingkat halusinasi 17%. Meta AI lebih akurat (halusinasi 15%), tetapi pengguna tampaknya tidak menyukai pengalamannya, memberikannya peringkat kepuasan terendah dari kelompok tersebut (3,4 dari 5).
Jika nama-nama besar mengecewakan, siapa yang sebenarnya melakukan pekerjaan dengan baik? Mengejutkan, studi tersebut menunjuk Grok dan DeepSeek sebagai alat yang paling dapat diandalkan untuk penggunaan profesional. Mereka tidak memiliki anggaran pemasaran besar atau pengakuan merek seperti OpenAI, tetapi mereka bekerja lebih baik. DeepSeek mencatat nol gangguan layanan dan menjaga halusinasi pada tingkat minimum.
Kimi juga mendapat nilai baik, menemukan titik manis antara konsistensi dan uptime. Sementara itu, opsi berbayar seperti Perplexity AI solid tetapi menimbulkan pertanyaan apakah biaya berlangganan sepadan ketika alternatif yang lebih murah dan kurang dikenal mengungguli mereka.
Chief Product Officer Relum, Razvan-Lucian Haiduc, memperingatkan bahwa keandalan harus menjadi faktor utama dalam keputusan adopsi AI. Dia mencatat bahwa sekitar 65% perusahaan AS sekarang menggunakan chatbot AI dalam alur kerja sehari-hari. Hampir 45% karyawan mengaku berbagi informasi perusahaan yang sensitif dengan alat-alat ini.
Seiring AI menjadi lebih tertanam dalam pekerjaan rutin, risiko misinformasi berlipat ganda. Haiduc menekankan bahwa chatbot yang paling banyak digunakan tidak selalu cocok untuk setiap industri. Akurasi, uptime, dan kinerja khusus tugas harus lebih penting daripada keakraban merek.
Laporan ini berfungsi sebagai pemeriksaan realitas bagi industri. Kepercayaan tidak boleh diberikan hanya karena chatbot terkenal; itu harus diperoleh melalui kebenaran yang konsisten dan dapat diverifikasi. Saat ini, tampaknya para pemimpin pasar memiliki banyak ketertinggalan yang harus dikejar.


