Китайський ШІ-стартап DeepSeek представив свою найновішу експериментальну мовну модель V3.2-exp, розроблену для скорочення витрат на обробку завдань з довгим контекстом майже вдвічі.
Модель, анонсована в понеділок, спрямована на вирішення однієї з найбільш нагальних проблем у масштабному впровадженні ШІ: витрат на обробку розширених вхідних даних.
V3.2-exp використовує нову систему під назвою DeepSeek Sparse Attention, яка поєднує "lightning indexer" з вторинним модулем для детального відбору токенів.
Разом ці інновації дозволяють моделі зосередитися на найбільш релевантних фрагментах, одночасно точно керуючи деталями на рівні токенів. Ранні внутрішні тести свідчать, що система може значно зменшити навантаження на сервери, а витрати на API потенційно можуть знизитися на 50% для операцій з довгим контекстом.
На відміну від багатьох комерційних ШІ-релізів, які залишаються закритими, V3.2-exp була запущена як модель з відкритими вагами. Вона тепер доступна на Hugging Face, що дає дослідникам, розробникам та підприємствам можливість проводити незалежні оцінки.
Це рішення підкреслює постійне прагнення DeepSeek до прозорості та співпраці, особливо коли компанії все більше перевіряють заяви про ефективність та продуктивність.
Відкритий випуск моделі також відповідає попередній стратегії DeepSeek з моделлю R1 на початку цього року, де відкрите тестування дозволило спільноті перевірити її здібності до міркування. Застосовуючи той самий підхід для V3.2-exp, DeepSeek демонструє впевненість у своїх проривах в ефективності.
Запуск V3.2-exp відбувається після серії оновлень та експериментів від DeepSeek за останні місяці. Раніше у вересні компанія представила DeepSeek-V3.1-Terminus, вдосконалення, спрямоване на покращення продуктивності ШІ-агента та вирішення повідомлених проблем, таких як нечитабельні символи та непослідовне перемикання мов.
Хоча це оновлення принесло невеликі покращення в таких тестах, як Humanity's Last Exam та завданнях з кодування, деякі проблеми залишилися, особливо в продуктивності китайської мови.
Тим часом, галузеві звіти показали, що DeepSeek працює над моделлю наступного покоління, орієнтованою на агентів, запуск якої запланований на 4 квартал 2025 року. Проект відображає ширший галузевий перехід до автономних ШІ-систем, здатних виконувати багатоетапні завдання з мінімальним людським наглядом. Випуск V3.2-exp, здається, доповнює цю траєкторію, зміцнюючи технологічну основу компанії в ефективності перед впровадженням більш просунутих функцій агента.
Інновація DeepSeek з'являється в той час, коли конкуренція в китайському секторі ШІ посилюється. Конкуруючі фірми, такі як Alibaba та Tencent, різко збільшують свої інвестиції в ШІ, при цьому Alibaba обіцяє понад 380 мільярдів юанів (52,9 мільярда доларів) у хмарну та ШІ-інфраструктуру.
Хоча DeepSeek отримав похвалу за досягнення економічно ефективних результатів з порівняно скромними ресурсами, аналітики попереджають, що компанія повинна підтримувати темп, щоб уникнути затінення своїми багатими на кошти конкурентами.
Повідомлення "Нова модель DeepSeek вдвічі зменшує витрати на API для розширених контекстів" вперше з'явилося на CoinCentral.


