EDMONTON, CANADA – 28 IANUARIE: O femeie ține un telefon mobil în fața unui ecran de calculator care afișează logo-ul DeepSeek, pe 28 ianuarie 2025, în Edmonton, Canada. (Foto de Artur Widak/NurPhoto via Getty Images)
NurPhoto via Getty Images
DeepSeek V4, actualizarea mult așteptată de la DeepSeek, apare într-un moment extrem de competitiv, când GPT 5.5 de la OpenAI și Opus 4.7 de la Anthropic tocmai au fost lansate unul după altul. Cursa modelelor AI atinge aparent un nou nivel. Ca un susținător unic al instrumentelor open source, DeepSeek impresionează dezvoltatorii prin eficiența sa din punct de vedere al costurilor, mai degrabă decât prin scala brută.
Versiunea de previzualizare include două modele Mixture-of-Experts cu o fereastră de context de un milion de tokenuri: DeepSeek-V4-Pro, cu 1,6 trilioane de parametri totali și 49 de miliarde de parametri activați, și DeepSeek-V4-Flash, cu 284 de miliarde de parametri totali și 13 miliarde de parametri activați.
Agenții cu context lung, asistenții de programare, instrumentele de cercetare și copiloturile pentru întreprinderi se confruntă cu același blocaj: fiecare token nou generat poate fi necesar să facă referire la un istoric în creștere de documente, cod, apeluri de instrumente și raționamente intermediare. Raportul tehnic al DeepSeek demonstrează că modelele V4 abordează această problemă prin compresie arhitecturală, mai degrabă decât să solicite pur și simplu utilizatorilor să plătească pentru mai multă putere de calcul.
Inovația de bază: Comprimarea memoriei fără pierderea raționamentului
Cea mai importantă schimbare arhitecturală a DeepSeek V4 este un design de atenție hibrid care combină Compressed Sparse Attention (CSA) cu Heavily Compressed Attention (HCA). Aceasta înseamnă că modelul nu stochează și nu scanează fiecare token anterior în același mod costisitor. CSA comprimă grupuri de intrări cheie-valoare și apoi selectează cele mai relevante blocuri comprimate. HCA comprimă și mai agresiv, permițând o atenție densă asupra unui flux de memorie mult mai scurt.
Acest lucru contează deoarece atenția este unul dintre principalii factori de cost în AI cu context lung. Pe măsură ce lungimea contextului crește, atenția convențională devine din ce în ce mai costisitoare atât în calcul, cât și în memorie. Designul de atenție hibrid al DeepSeek tratează contextul lung ca o problemă de inginerie a ierarhiei memoriei. Unele informații necesită atenție locală granulară. Unele pot fi comprimate. Prin combinarea acestor moduri, V4 transformă contextul de un milion de tokenuri într-o capacitate mai practică. La începutul acestui an, cercetătorii DeepSeek au publicat o lucrare care propune Engram, un modul de memorie condiționată care avansează eficiența raționamentului prin separarea structurală a recuperării cunoștințelor statice de calculul dinamic.
De ce ar putea aceasta impulsiona mai multă inovație în AI
Costul mai mic al inferenței schimbă cine poate experimenta. Când raționamentul cu context lung devine mai ieftin, mai mulți dezvoltatori pot construi agenți care citesc depozite complete, analizează dosare juridice lungi, compară documente financiare cu mai multe fișiere sau operează pe sesiuni extinse de utilizare a instrumentelor. Aceasta extinde spațiul de design dincolo de prompturile pentru chatbot.
Pentru startup-uri, DeepSeek V4 reduce costul încercării aplicațiilor ambițioase. Pentru întreprinderi, face fluxurile de lucru cu context larg mai realiste. Pentru dezvoltatorii open source, oferă o rețetă tehnică: combinați sparsitatea MoE, compresia contextului lung, inferența de precizie scăzută, nucleele personalizate și post-antrenamentul pentru sarcini agentice.
Mesajul hardware: Modelele AI le spun acum cipurilor ce să devină
DeepSeek V4 este de asemenea notabil deoarece raportul tehnic face sugestii explicite cu privire la proiectarea hardware-ului. Echipa susține că hardware-ul viitor ar trebui să optimizeze raportul dintre calcul și comunicare, mai degrabă decât să crească orbește lățimea de bandă.
Reuters a raportat de asemenea că DeepSeek V4 a fost adaptat să ruleze pe cipurile Ascend ale Huawei și că Huawei a declarat că clusterele sale supernode bazate pe Ascend 950 suportă pe deplin seria V4. Acest lucru face din V4 o parte dintr-o poveste hardware mai amplă. Cursa AI se mută de la greutățile modelelor la co-designul full-stack, unde modelele, nucleele, sistemele de memorie, interconexiunile și cipurile co-evoluează.
Inteligența mai ieftină extinde piața
Cea mai importantă consecință a DeepSeek V4 poate fi economică. Când costul raționamentului cu context lung scade, cazurile de utilizare AI care odată păreau prea scumpe devin mai plauzibile. Agenții cu baze de cod complete, asistenții de cercetare pe termen lung, fluxurile de lucru juridice cu documente numeroase, instrumentele de diligență financiară, sistemele de recenzie a literaturii științifice și agenții de cunoștințe pentru întreprinderi beneficiază toți de memorie mai ieftină și inferență mai ieftină.
Aceasta înseamnă că DeepSeek V4 recadrează cursa AI. Dacă DeepSeek poate oferi modele deschise puternice cu cerințe mai mici de memorie și calcul, liderii cu sursă închisă vor face față unei presiuni mai mari pentru a justifica prețurile premium. Competitorii open source vor face față presiunii de a egala tehnicile de eficiență ale V4.
Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/








