ChatGPT peut dominer le marché des chatbots d'IA, mais un nouveau rapport suggère que la popularité n'est pas synonyme de fiabilité. Une étude de décembre 2025 examinant comment les principaux chatbots d'IA performent dans les scénarios de travail quotidiens a classé ChatGPT comme l'option la moins fiable pour les tâches professionnelles. Ces résultats soulèvent de nouvelles préoccupations pour les entreprises qui dépendent de plus en plus des outils d'IA pour leurs opérations quotidiennes.
L'étude, menée par Relum, ne s'est pas contentée d'examiner les spécifications sur papier ; ils ont soumis dix chatbots d'IA majeurs à des tests de résistance dans des scénarios professionnels réels. Les résultats ? Un décalage massif entre le battage médiatique et la réalité.
L'étude a évalué chaque chatbot selon quatre critères clés. Il s'agissait du taux d'hallucination, des évaluations des produits par les clients, de la cohérence des réponses entre les tâches et de la fréquence des temps d'arrêt. Chaque facteur a contribué à un score de risque de fiabilité composite, les scores plus élevés indiquant des problèmes potentiels plus importants sur le lieu de travail.
Voici la statistique qui devrait empêcher les dirigeants d'entreprise de dormir : Malgré le contrôle de 81% du marché et des évaluations utilisateurs élevées, ChatGPT a enregistré un taux d'hallucination de 35%.
En termes simples, cela signifie que plus d'une réponse sur trois qu'il donne contient des informations fabriquées ou incorrectes. Si vous l'utilisez pour rédiger un roman fantastique, c'est bien, mais si vous l'utilisez pour des rapports de conformité ou des prises de décision financière, c'est une recette pour le désastre. Par conséquent, l'étude a attribué à ChatGPT un score de risque de fiabilité de 99 sur 99, le pire du groupe.
ChatGPT
Google ne s'en est pas mieux tiré. Bien que Gemini ait eu un meilleur temps de fonctionnement, il a en fait obtenu de moins bons résultats en termes de précision pure, enregistrant le taux d'hallucination le plus élevé de tout le groupe à 38%. Cela met en évidence un paradoxe étrange sur le marché actuel de l'IA : les outils que nous utilisons le plus sont souvent ceux qui ont le plus de mal à garder leurs faits exacts.
Claude et Meta AI occupent un terrain intermédiaire trouble. Claude, malgré sa popularité pour son style d'écriture, a été classé comme le deuxième moins fiable en raison de temps d'arrêt fréquents et d'un taux d'hallucination de 17%. Meta AI était plus précis (15% d'hallucination), mais les utilisateurs semblent ne pas apprécier l'expérience, lui donnant la note de satisfaction la plus basse du groupe (3,4 sur 5).
Si les grands noms laissent tomber la balle, qui fait réellement le travail ? Étonnamment, l'étude désigne Grok et DeepSeek comme les outils les plus fiables pour un usage professionnel. Ils n'ont pas les budgets marketing massifs ou la reconnaissance de marque d'OpenAI, mais ils fonctionnaient simplement mieux. DeepSeek n'a enregistré aucune panne de service et a maintenu les hallucinations au minimum.
Kimi a également obtenu de bons résultats, trouvant un juste équilibre entre cohérence et temps de fonctionnement. Pendant ce temps, les options payantes comme Perplexity AI étaient solides mais ont soulevé des questions quant à savoir si le coût d'abonnement en vaut la peine lorsque des alternatives moins connues et moins chères les surpassent.
Le directeur des produits de Relum, Razvan-Lucian Haiduc, a averti que la fiabilité devrait être un facteur central dans les décisions d'adoption de l'IA. Il a noté qu'environ 65% des entreprises américaines utilisent désormais des chatbots d'IA dans leurs flux de travail quotidiens. Près de 45% des employés admettent partager des informations sensibles de l'entreprise avec ces outils.
À mesure que l'IA s'intègre davantage dans le travail de routine, les risques de désinformation se multiplient. Haiduc a souligné que le chatbot le plus largement utilisé n'est pas toujours le mieux adapté à chaque industrie. La précision, le temps de fonctionnement et les performances spécifiques aux tâches devraient l'emporter sur la familiarité de la marque.
Le rapport sert de rappel à la réalité pour l'industrie. La confiance ne devrait pas être accordée simplement parce qu'un chatbot est célèbre ; elle devrait être gagnée par une vérité cohérente et vérifiable. À l'heure actuelle, il semble que les leaders du marché aient un sérieux retard à rattraper.


