ChatGPT mungkin mendominasi pasar chatbot AI, tetapi laporan baru menunjukkan bahwa popularitas tidak sama dengan kepercayaan. A…ChatGPT mungkin mendominasi pasar chatbot AI, tetapi laporan baru menunjukkan bahwa popularitas tidak sama dengan kepercayaan. A…

ChatGPT dinamai chatbot kerja paling tidak andal dalam laporan keandalan AI baru

2025/12/11 02:38

ChatGPT mungkin mendominasi pasar chatbot AI, tetapi laporan baru menunjukkan popularitas tidak sama dengan kepercayaan. Sebuah studi Desember 2025 yang meneliti bagaimana chatbot AI terkemuka berkinerja dalam skenario kerja sehari-hari telah menempatkan ChatGPT sebagai opsi yang paling tidak dapat diandalkan untuk tugas profesional. Temuan ini menimbulkan kekhawatiran baru bagi bisnis yang semakin bergantung pada alat AI untuk operasi sehari-hari.

Studi yang dilakukan oleh Relum, tidak hanya melihat spesifikasi di atas kertas; mereka menguji secara intensif sepuluh chatbot AI utama dalam skenario profesional dunia nyata. Hasilnya? Kesenjangan besar antara hype dan realitas.

Studi ini menilai setiap chatbot berdasarkan empat kriteria utama. Ini adalah tingkat halusinasi, peringkat produk pelanggan, konsistensi respons di berbagai tugas, dan frekuensi downtime. Setiap faktor berkontribusi pada skor risiko keandalan komposit, dengan skor lebih tinggi menunjukkan potensi masalah tempat kerja yang lebih besar.

Inilah statistik yang seharusnya membuat para pemimpin bisnis tidak bisa tidur nyenyak: Meskipun mengendalikan 81% pasar dan memiliki peringkat pengguna yang tinggi, ChatGPT mencatat tingkat halusinasi sebesar 35%.

Dalam bahasa sederhana, itu berarti lebih dari satu dari setiap tiga jawaban yang diberikannya mengandung informasi yang dibuat-buat atau tidak benar. Jika Anda menggunakannya untuk menyusun novel fantasi, itu tidak masalah, tetapi jika Anda menggunakannya untuk laporan kepatuhan atau pengambilan keputusan keuangan, itu adalah resep bencana. Akibatnya, studi tersebut memberikan ChatGPT skor risiko keandalan 99 dari 99, yang terburuk dalam kelompok tersebut.

ChatGPT named least reliable work chatbot in new AI reliability reportChatGPT

Google tidak lebih baik. Sementara Gemini memiliki uptime yang lebih baik, sebenarnya berkinerja lebih buruk dalam akurasi murni, mencatat tingkat halusinasi tertinggi dari seluruh kelompok sebesar 38%. Ini menyoroti paradoks aneh di pasar AI saat ini: alat yang paling sering kita gunakan sering kali adalah yang paling sulit untuk menjaga fakta mereka tetap benar.

Claude dan Meta AI menempati posisi tengah yang tidak jelas. Claude, meskipun menjadi favorit karena gaya penulisannya, diperingkat sebagai yang kedua paling tidak dapat diandalkan karena downtime yang sering dan tingkat halusinasi 17%. Meta AI lebih akurat (halusinasi 15%), tetapi pengguna tampaknya tidak menyukai pengalamannya, memberikannya peringkat kepuasan terendah dari kelompok tersebut (3,4 dari 5).

Para "underdog" – Grok dan DeepSeek mencuri perhatian dari ChatGPT

Jika nama-nama besar mengecewakan, siapa yang sebenarnya melakukan pekerjaan dengan baik? Mengejutkan, studi tersebut menunjuk Grok dan DeepSeek sebagai alat yang paling dapat diandalkan untuk penggunaan profesional. Mereka tidak memiliki anggaran pemasaran besar atau pengakuan merek seperti OpenAI, tetapi mereka bekerja lebih baik. DeepSeek mencatat nol gangguan layanan dan menjaga halusinasi pada tingkat minimum.

Kimi juga mendapat nilai baik, menemukan titik manis antara konsistensi dan uptime. Sementara itu, opsi berbayar seperti Perplexity AI solid tetapi menimbulkan pertanyaan apakah biaya berlangganan sepadan ketika alternatif yang lebih murah dan kurang dikenal mengungguli mereka.

ChatGPT named least reliable work chatbot in new AI reliability report

Chief Product Officer Relum, Razvan-Lucian Haiduc, memperingatkan bahwa keandalan harus menjadi faktor utama dalam keputusan adopsi AI. Dia mencatat bahwa sekitar 65% perusahaan AS sekarang menggunakan chatbot AI dalam alur kerja sehari-hari. Hampir 45% karyawan mengaku berbagi informasi perusahaan yang sensitif dengan alat-alat ini.

Seiring AI menjadi lebih tertanam dalam pekerjaan rutin, risiko misinformasi berlipat ganda. Haiduc menekankan bahwa chatbot yang paling banyak digunakan tidak selalu cocok untuk setiap industri. Akurasi, uptime, dan kinerja khusus tugas harus lebih penting daripada keakraban merek.

Laporan ini berfungsi sebagai pemeriksaan realitas bagi industri. Kepercayaan tidak boleh diberikan hanya karena chatbot terkenal; itu harus diperoleh melalui kebenaran yang konsisten dan dapat diverifikasi. Saat ini, tampaknya para pemimpin pasar memiliki banyak ketertinggalan yang harus dikejar.

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.