ChatGPT mag den KI-Chatbot-Markt dominieren, aber ein neuer Bericht deutet darauf hin, dass Popularität nicht mit Vertrauenswürdigkeit gleichzusetzen ist. Eine Studie vom Dezember 2025, die untersuchte, wie führende KI-Chatbots in alltäglichen Arbeitsszenarien abschneiden, hat ChatGPT als die am wenigsten zuverlässige Option für professionelle Aufgaben eingestuft. Die Ergebnisse werfen neue Bedenken für Unternehmen auf, die zunehmend von KI-Werkzeugen für den täglichen Betrieb abhängig sind.
Die von Relum durchgeführte Studie betrachtete nicht nur die Spezifikationen auf dem Papier; sie unterzog zehn große KI-Chatbots Belastungstests in realen professionellen Szenarien. Die Ergebnisse? Eine massive Diskrepanz zwischen Hype und Realität.
Die Studie bewertete jeden Chatbot anhand von vier Schlüsselkriterien. Diese waren Halluzinationsrate, Kundenbewertungen, Antwortkonsistenz bei verschiedenen Aufgaben und Ausfallhäufigkeit. Jeder Faktor trug zu einem zusammengesetzten Zuverlässigkeitsrisiko-Score bei, wobei höhere Werte auf größere potenzielle Arbeitsplatzprobleme hindeuten.
Hier ist die Statistik, die Unternehmensführer nachts wachhalten sollte: Trotz der Kontrolle über massive 81% des Marktes und hohen Benutzerbewertungen verzeichnete ChatGPT eine Halluzinationsrate von 35%.
Auf gut Deutsch bedeutet das, dass mehr als eine von drei Antworten erfundene oder falsche Informationen enthält. Wenn Sie es zum Verfassen eines Fantasy-Romans verwenden, ist das in Ordnung, aber wenn Sie es für Compliance-Berichte oder finanzielle Entscheidungsfindung einsetzen, ist das ein Rezept für eine Katastrophe. Folglich erhielt ChatGPT in der Studie einen Zuverlässigkeitsrisiko-Score von 99 von 99, den schlechtesten in der Gruppe.
ChatGPT
Google schnitt nicht besser ab. Während Gemini eine bessere Betriebszeit hatte, schnitt es bei der reinen Genauigkeit tatsächlich schlechter ab und verzeichnete mit 38% die höchste Halluzinationsrate der gesamten Gruppe. Dies unterstreicht ein seltsames Paradoxon im aktuellen KI-Markt: Die Werkzeuge, die wir am häufigsten nutzen, sind oft diejenigen, die am meisten damit kämpfen, ihre Fakten korrekt darzustellen.
Claude und Meta AI besetzen ein trübes Mittelfeld. Claude, obwohl ein Favorit für seinen Schreibstil, wurde aufgrund häufiger Ausfallzeiten und einer Halluzinationsrate von 17% als das zweitunzuverlässigste eingestuft. Meta AI war genauer (15% Halluzination), aber die Benutzer scheinen die Erfahrung nicht zu mögen und gaben ihm die niedrigste Zufriedenheitsbewertung der Gruppe (3,4 von 5).
Wenn die großen Namen den Ball fallen lassen, wer macht dann eigentlich die Arbeit? Überraschenderweise weist die Studie auf Grok und DeepSeek als die zuverlässigsten Werkzeuge für den professionellen Einsatz hin. Sie verfügen nicht über die massiven Marketingbudgets oder die Markenbekanntheit von OpenAI, aber sie funktionieren einfach besser. DeepSeek verzeichnete keine Serviceausfälle und hielt Halluzinationen auf ein Minimum.
Kimi schnitt ebenfalls gut ab und fand einen Sweet Spot zwischen Konsistenz und Betriebszeit. Währenddessen waren kostenpflichtige Optionen wie Perplexity AI solide, warfen aber Fragen auf, ob die Abonnement-beitrag es wert ist, wenn günstigere, weniger bekannte Alternativen sie übertreffen.
Der Chief Product Officer von Relum, Razvan-Lucian Haiduc, warnte, dass Zuverlässigkeit ein zentraler Faktor bei KI-Adoptionsentscheidungen sein sollte. Er stellte fest, dass etwa 65% der US-Unternehmen jetzt KI-Chatbots in täglichen Arbeitsabläufen einsetzen. Fast 45% der Mitarbeiter geben zu, sensible Unternehmensinformationen mit diesen Tools zu teilen.
Da KI immer mehr in die Routinearbeit eingebettet wird, vervielfachen sich die Risiken von Fehlinformationen. Haiduc betonte, dass der am weitesten verbreitete Chatbot nicht immer die beste Wahl für jede Branche ist. Genauigkeit, Betriebszeit und aufgabenspezifische Leistung sollten Markenbekanntheit überwiegen.
Der Bericht dient als Realitätscheck für die Branche. Vertrauen sollte nicht nur gegeben werden, weil ein Chatbot berühmt ist; es sollte durch konsistente, überprüfbare Wahrheit verdient werden. Im Moment sieht es so aus, als hätten die Marktführer einiges aufzuholen.


