ЕДМОНТОН, КАНАДА – 28 СІЧНЯ: Жінка тримає мобільний телефон перед екраном комп'ютера з логотипом DeepSeek, 28 січня 2025 року в Едмонтоні, Канада. (Фото: Artur Widak/NurPhoto via Getty Images)
NurPhoto via Getty Images
DeepSeek V4 — довгоочікуване оновлення від DeepSeek — з'являється у надзвичайно конкурентний момент, коли GPT 5.5 від Open AI та Opus 4.7 від Anthropic щойно вийшли один за одним. Гонка моделей ШІ, очевидно, досягає нового рівня. Будучи переконаним прихильником інструментів з відкритим вихідним кодом, DeepSeek вражає розробників своєю економічною ефективністю, а не масштабом.
Попередній реліз включає дві моделі Mixture-of-Experts з контекстним вікном у один мільйон токенів: DeepSeek-V4-Pro — з 1,6 трильйона загальних параметрів та 49 мільярдами активованих параметрів, і DeepSeek-V4-Flash — з 284 мільярдами загальних параметрів та 13 мільярдами активованих параметрів.
Агенти з довгим контекстом, помічники з кодування, дослідницькі інструменти та корпоративні копілоти стикаються з одним і тим самим вузьким місцем: кожен новостворений токен може потребувати звернення до зростаючої історії документів, коду, викликів інструментів та проміжних міркувань. Технічний звіт DeepSeek демонструє, що моделі V4 вирішують цю проблему через архітектурне стиснення, а не просто пропонуючи користувачам платити за більші обчислювальні ресурси.
Ключова інновація: стиснення пам'яті без втрати якості міркувань
Найважливішою архітектурною зміною в DeepSeek V4 є гібридний дизайн уваги, що поєднує Compressed Sparse Attention (CSA) та Heavily Compressed Attention (HCA). Це означає, що модель не зберігає та не сканує кожен попередній токен у той самий ресурсомісткий спосіб. CSA стискає групи записів ключ-значення, а потім вибирає найбільш релевантні стиснуті блоки. HCA стискає ще агресивніше, дозволяючи щільну увагу над значно коротшим потоком пам'яті.
Це важливо, оскільки увага є одним із основних чинників витрат у ШІ з довгим контекстом. Зі зростанням довжини контексту звичайна увага стає дедалі дорожчою як в обчисленнях, так і в пам'яті. Гібридний дизайн уваги DeepSeek розглядає довгий контекст як інженерну проблему ієрархії пам'яті. Деяка інформація потребує точної локальної уваги. Деяку можна стиснути. Поєднуючи ці режими, V4 перетворює контекст у мільйон токенів на більш практичну можливість. На початку цього року дослідники DeepSeek опублікували статтю з пропозицією Engram — модуля умовної пам'яті, який підвищує ефективність міркувань шляхом структурного розділення статичного отримання знань та динамічних обчислень.
Чому це може стимулювати більше інновацій у сфері ШІ
Зниження вартості виведення змінює те, хто може проводити експерименти. Коли міркування з довгим контекстом стає дешевшим, більше розробників можуть створювати агентів, які читають повні репозиторії, аналізують довгі юридичні записи, порівнюють фінансові документи з кількох джерел або працюють у розширених сесіях використання інструментів. Це розширює простір для проектування за межі підказок чат-ботів.
Для стартапів DeepSeek V4 знижує вартість спроб створити амбітні застосунки. Для підприємств це робить робочі процеси з великим контекстом більш реалістичними. Для розробників з відкритим вихідним кодом це надає технічний рецепт: поєднання розрідженості MoE, стиснення довгого контексту, виведення з низькою точністю, спеціальних ядер та донавчання для агентських завдань.
Сигнал від залізничного забезпечення: моделі ШІ тепер диктують, якими мають бути чіпи
DeepSeek V4 також примітний тим, що технічний звіт містить чіткі пропозиції щодо проектування апаратного забезпечення. Команда стверджує, що майбутнє апаратне забезпечення має оптимізуватися для співвідношення між обчисленнями та комунікацією, а не сліпо збільшувати пропускну здатність.
Reuters також повідомило, що DeepSeek V4 було адаптовано для роботи на чіпах Ascend від Huawei, і що Huawei заявила, що її суперноди на базі Ascend 950 повністю підтримують серію V4. Це робить V4 частиною більшої апаратної історії. Гонка ШІ переходить від ваг моделей до спільного проектування повного стека, де моделі, ядра, системи пам'яті, міжз'єднання та чіпи розвиваються разом.
Дешевший інтелект розширює ринок
Найважливішим наслідком DeepSeek V4 може бути економічний. Коли вартість міркувань з довгим контекстом знижується, варіанти використання ШІ, які раніше здавалися надто дорогими, стають більш реалістичними. Агенти для повної кодової бази, дослідницькі помічники з тривалим горизонтом, юридичні робочі процеси з великою кількістю документів, інструменти для комплексної юридичної перевірки фінансів, системи огляду наукової літератури та корпоративні агенти знань — усі вони отримують вигоду від дешевшої пам'яті та дешевшого виведення.
Це означає, що DeepSeek V4 переформатовує гонку ШІ. Якщо DeepSeek зможе надавати потужні відкриті моделі з меншими вимогами до пам'яті та обчислень, лідери з закритим вихідним кодом зіткнуться з більшим тиском щодо обґрунтування преміальних цін. Конкуренти з відкритим вихідним кодом зіткнуться з тиском щодо відповідності технікам ефективності V4.
Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/








