DeepSeek V4 pokazuje, że następny wyścig AI dotyczy wydajności

EDMONTON, KANADA – 28 STYCZNIA: Kobieta trzyma telefon komórkowy przed ekranem komputera wyświetlającym logo DeepSeek, 28 stycznia 2025 r. w Edmonton w Kanadzie. (Zdjęcie: Artur Widak/NurPhoto via Getty Images)

NurPhoto via Getty Images

DeepSeek V4, długo oczekiwana aktualizacja od DeepSeek, pojawia się w niezwykle konkurencyjnym momencie, gdy GPT 5.5 od OpenAI i Opus 4.7 od Anthropic zostały właśnie kolejno uruchomione. Wyścig modeli AI najwyraźniej osiąga nowy poziom. Jako wyjątkowy zwolennik narzędzi open source, DeepSeek imponuje deweloperom swoją efektywnością kosztową, a nie surową skalą.

Wersja podglądowa zawiera dwa modele Mixture-of-Experts z oknem kontekstowym wynoszącym milion tokenów: DeepSeek-V4-Pro, z łącznie 1,6 biliona parametrów i 49 miliardami aktywowanych parametrów, oraz DeepSeek-V4-Flash, z łącznie 284 miliardami parametrów i 13 miliardami aktywowanych parametrów.

Agenci długiego kontekstu, asystenci kodowania, narzędzia badawcze i kopiloty dla przedsiębiorstw napotykają na ten sam wąski gardło: każdy nowo wygenerowany token może wymagać odwołania się do rosnącej historii dokumentów, kodu, wywołań narzędzi i pośredniego rozumowania. Raport techniczny DeepSeek pokazuje, że modele V4 rozwiązują ten problem poprzez kompresję architektoniczną, a nie po prostu prosząc użytkowników o płacenie za większe zasoby obliczeniowe.

Kluczowa innowacja: kompresja pamięci bez utraty zdolności rozumowania

Najważniejszą zmianą architektoniczną w DeepSeek V4 jest hybrydowy projekt mechanizmu uwagi, który łączy Compressed Sparse Attention (CSA) z Heavily Compressed Attention (HCA). Oznacza to, że model nie przechowuje i nie skanuje każdego poprzedniego tokenu w ten sam kosztowny sposób. CSA kompresuje grupy wpisów klucz-wartość, a następnie wybiera najbardziej odpowiednie skompresowane bloki. HCA kompresuje jeszcze bardziej agresywnie, umożliwiając gęstą uwagę nad znacznie krótszym strumieniem pamięci.

Ma to znaczenie, ponieważ mechanizm uwagi jest jednym z głównych czynników kosztowych w AI z długim kontekstem. Wraz ze wzrostem długości kontekstu, konwencjonalny mechanizm uwagi staje się coraz droższy zarówno pod względem obliczeniowym, jak i pamięciowym. Hybrydowy projekt uwagi DeepSeek traktuje długi kontekst jako problem inżynieryjny hierarchii pamięci. Niektóre informacje wymagają szczegółowej lokalnej uwagi. Niektóre mogą być skompresowane. Łącząc te tryby, V4 przekształca kontekst miliona tokenów w bardziej praktyczną możliwość. Na początku tego roku badacze DeepSeek opublikowali artykuł proponujący Engram, warunkowy moduł pamięci, który zwiększa wydajność rozumowania poprzez strukturalne oddzielenie statycznego pobierania wiedzy od dynamicznych obliczeń.

Dlaczego może to pobudzić więcej innowacji w AI

Niższy koszt wnioskowania zmienia to, kto może eksperymentować. Gdy rozumowanie w długim kontekście staje się tańsze, więcej deweloperów może tworzyć agentów, którzy czytają pełne repozytoria, analizują długie dokumenty prawne, porównują wielodokumentowe zgłoszenia finansowe lub działają w trakcie rozszerzonych sesji z narzędziami. Rozszerza to przestrzeń projektowania poza podpowiedzi dla chatbotów.

Dla startupów DeepSeek V4 obniża koszty próbowania ambitnych aplikacji. Dla przedsiębiorstw sprawia, że przepływy pracy z dużym kontekstem stają się bardziej realistyczne. Dla deweloperów open source dostarcza techniczny przepis: połącz rzadkość MoE, kompresję długiego kontekstu, wnioskowanie o niskiej precyzji, niestandardowe jądra i trening po wdrożeniu dla zadań agentowych.

Przekaz dla sprzętu: modele AI mówią teraz układom scalonym, czym mają się stać

DeepSeek V4 jest również godny uwagi, ponieważ raport techniczny zawiera wyraźne sugestie dotyczące projektowania sprzętu. Zespół argumentuje, że przyszły sprzęt powinien optymalizować stosunek obliczeń do komunikacji, a nie ślepo zwiększać przepustowość.

Reuters poinformował również, że DeepSeek V4 został dostosowany do działania na układach Ascend firmy Huawei, a Huawei stwierdził, że jego klastry superwęzłów oparte na Ascend 950 w pełni obsługują serię V4. To czyni V4 częścią większej historii sprzętowej. Wyścig AI przesuwa się od wag modeli do współprojektowania pełnego stosu, gdzie modele, jądra, systemy pamięci, połączenia i układy scalone współewoluują.

Tańsza inteligencja rozszerza rynek

Najważniejszą konsekwencją DeepSeek V4 może być aspekt ekonomiczny. Gdy koszty rozumowania w długim kontekście spadają, przypadki użycia AI, które kiedyś wyglądały na zbyt drogie, stają się bardziej realne. Agenci pełnej bazy kodu, asystenci badań o długim horyzoncie, przepływy pracy prawnych z dużą ilością dokumentów, narzędzia due diligence finansowego, systemy przeglądania literatury naukowej i agenci wiedzy korporacyjnej – wszyscy korzystają z tańszej pamięci i tańszego wnioskowania.

Oznacza to, że DeepSeek V4 zmienia ramy wyścigu AI. Jeśli DeepSeek może dostarczać silne modele open source przy niższych wymaganiach dotyczących pamięci i obliczeń, liderzy zamkniętego źródła będą musieli zmierzyć się z większą presją, aby uzasadnić premium cenowe. Konkurenci open source będą pod presją, aby dorównać technikom efektywności V4.

Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/

DeepSeek V4 pokazuje, że następny wyścig AI dotyczy wydajności

Kluczowa innowacja: kompresja pamięci bez utraty zdolności rozumowania

Dlaczego może to pobudzić więcej innowacji w AI

Przekaz dla sprzętu: modele AI mówią teraz układom scalonym, czym mają się stać

Tańsza inteligencja rozszerza rynek

Możesz także polubić

Czy przewidywana cena Avax osiągnie 55 dolarów, zanim Pepeto dotrze do wydarzenia, które zmienia wszystko

Ostrzeżenie dotyczące ceny złota: Odrzucenie na poziomie 4 800 USD sygnalizuje możliwy spadek do 4 100 USD

Cena Dogecoin ponownie testuje wsparcie Kumo, a byki celują w przebicie poziomu 0,10 USD

Popularne wiadomości

Sąd Najwyższy „rozpada się", gdy sędziowie publicznie atakują się nawzajem: analiza

Infrastruktura AI i doświadczenie klienta: Jak innowacja Cadence–TSMC przekształca CX na poziomie krzemu

„Żenująca" wpadka z flagą administracji Trumpa wprawia obserwatorów w osłupienie

Spot XRP ETF osiągnęły 1,29 mld dolarów napływów, gdy XRP utrzymuje się blisko 1,43 dolarów

Amerykańskie banki mają tylko 4 dni, aby wpłynąć na zasady stablecoinów ustawy GENIUS w OCC

Wiadomości na żywo 24/7

Ceny kryptowalut