ChatGPT може домінувати на ринку ШІ-чатботів, але новий звіт свідчить, що популярність не дорівнює надійності. А…ChatGPT може домінувати на ринку ШІ-чатботів, але новий звіт свідчить, що популярність не дорівнює надійності. А…

ChatGPT названий найменш надійним робочим чат-ботом у новому звіті про надійність ШІ

2025/12/11 02:38

ChatGPT може домінувати на ринку ШІ-чатботів, але новий звіт свідчить про те, що популярність не дорівнює надійності. Дослідження грудня 2025 року, яке вивчало, як провідні ШІ-чатботи працюють у повсякденних робочих сценаріях, визнало ChatGPT найменш надійним варіантом для професійних завдань. Ці висновки викликають нові занепокоєння для бізнесу, який все більше залежить від ШІ-інструментів для щоденних операцій.

Дослідження, проведене компанією Relum, не просто розглядало характеристики на папері; вони стрес-тестували десять основних ШІ-чатботів у реальних професійних сценаріях. Результати? Величезний розрив між рекламою та реальністю.

Дослідження оцінювало кожного чатбота за чотирма ключовими критеріями. Це були рівень галюцинацій, оцінки продукту клієнтами, послідовність відповідей у різних завданнях та частота простоїв. Кожен фактор сприяв формуванню загальної оцінки ризику надійності, де вищі бали вказують на більші потенційні проблеми на робочому місці.

Ось статистика, яка повинна не давати спати бізнес-лідерам: незважаючи на контроль над величезними 81% ринку та високі оцінки користувачів, ChatGPT зафіксував рівень галюцинацій у 35%.

Простіше кажучи, це означає, що більше ніж одна з трьох відповідей містить вигадану або неправильну інформацію. Якщо ви використовуєте його для написання фантастичного роману, це нормально, але якщо ви використовуєте його для звітів про відповідність або прийняття фінансових рішень, це рецепт катастрофи. Як наслідок, дослідження присвоїло ChatGPT оцінку ризику надійності 99 із 99, найгіршу в групі.

ChatGPT named least reliable work chatbot in new AI reliability reportChatGPT

Google не показав кращих результатів. Хоча Gemini мав кращий час безперебійної роботи, він насправді показав гірші результати щодо чистої точності, зареєструвавши найвищий рівень галюцинацій у всій групі - 38%. Це підкреслює дивний парадокс на сучасному ринку ШІ: інструменти, якими ми користуємося найбільше, часто є тими, які найбільше борються за точність своїх фактів.

Claude та Meta AI займають невизначену середню позицію. Claude, незважаючи на те, що є улюбленцем за свій стиль письма, посів друге місце за ненадійністю через часті простої та 17% рівень галюцинацій. Meta AI був точнішим (15% галюцинацій), але користувачам, схоже, не подобається досвід, даючи йому найнижчу оцінку задоволеності серед усіх (3,4 з 5).

"Аутсайдери" – Grok та DeepSeek крадуть шоу у ChatGPT

Якщо великі імена втрачають позиції, хто ж насправді виконує роботу? Дивно, але дослідження вказує на Grok та DeepSeek як на найнадійніші інструменти для професійного використання. Вони не мають масивних маркетингових бюджетів або впізнаваності бренду OpenAI, але вони просто працюють краще. DeepSeek зафіксував нульові перебої в обслуговуванні та мінімізував галюцинації.

Kimi також отримав хороші оцінки, знайшовши ідеальний баланс між послідовністю та часом безперебійної роботи. Тим часом, платні опції, такі як Perplexity AI, були надійними, але викликали питання щодо того, чи варта передплата, коли дешевші, менш відомі альтернативи перевершують їх.

ChatGPT named least reliable work chatbot in new AI reliability report

Головний директор з продуктів Relum, Разван-Лучіан Хайдук, попередив, що надійність повинна бути центральним фактором у рішеннях щодо впровадження ШІ. Він зазначив, що близько 65% американських компаній зараз використовують ШІ-чатботи у щоденних робочих процесах. Майже 45% працівників визнають, що діляться конфіденційною інформацією компанії з цими інструментами.

Оскільки ШІ стає все більш вбудованим у рутинну роботу, ризики дезінформації множаться. Хайдук підкреслив, що найбільш широко використовуваний чатбот не завжди є найкращим вибором для кожної галузі. Точність, час безперебійної роботи та продуктивність для конкретних завдань повинні переважати над знайомством з брендом.

Звіт служить перевіркою реальності для галузі. Довіра не повинна надаватися лише тому, що чатбот відомий; вона повинна бути заслужена через послідовну, перевірену правду. Зараз здається, що лідерам ринку потрібно серйозно наздоганяти.

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою [email protected] для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися