加拿大埃德蒙顿 – 1月28日:2025年1月28日,加拿大埃德蒙顿,一名女子手持手机,屏幕上显示着DeepSeek的标志。(摄影:Artur Widak/NurPhoto via Getty Images)
NurPhoto via Getty Images
DeepSeek V4是DeepSeek备受期待的更新版本,恰逢竞争激烈之际——OpenAI的GPT 5.5与Anthropic的Opus 4.7相继推出。AI模型竞赛显然已进入新阶段。作为开源工具的坚定支持者,DeepSeek以其高性价比而非庞大规模令开发者印象深刻。
此次预览版本包含两款混合专家模型,均支持百万token上下文窗口:DeepSeek-V4-Pro,总参数量1.6万亿,激活参数490亿;DeepSeek-V4-Flash,总参数量2840亿,激活参数130亿。
长上下文代理、编程助手、研究工具和企业副驾驶均面临同一瓶颈:每个新生成的token都可能需要回溯不断增长的文档、代码、工具调用和中间推理历史。DeepSeek的技术报告证明,其V4模型通过架构压缩来解决这一问题,而非单纯要求用户为更多算力买单。
核心创新:压缩记忆而不损失推理能力
DeepSeek V4最重要的架构变化是一种混合注意力设计,将压缩稀疏注意力(CSA)与重度压缩注意力(HCA)相结合。这意味着模型不再以同样高昂的方式存储和扫描每个历史token。CSA对键值条目进行分组压缩,再筛选最相关的压缩块;HCA则压缩力度更强,允许在更短的记忆流上进行密集注意力计算。
这一点至关重要,因为注意力机制是长上下文AI的主要成本驱动因素之一。随着上下文长度增加,传统注意力在计算和内存方面的开销也随之急剧上升。DeepSeek的混合注意力设计将长上下文视为记忆层次结构的工程问题——部分信息需要细粒度的局部注意力,部分则可以压缩。通过结合这两种模式,V4将百万token上下文转化为更具实用性的能力。今年早些时候,DeepSeek研究人员发表了一篇论文,提出了Engram——一种条件记忆模块,通过结构性地将静态知识检索与动态计算分离,提升推理效率。
为何这将推动更多AI创新
更低的推理成本改变了参与实验的门槛。当长上下文推理变得更廉价,更多开发者便能构建可读取完整代码库、分析长篇法律记录、比较多文档财务申报,或在扩展工具使用会话中运行的代理。这将设计空间拓展至聊天机器人提示之外。
对初创企业而言,DeepSeek V4降低了尝试雄心勃勃应用的成本;对企业而言,它使大上下文工作流更具可行性;对开源开发者而言,它提供了一套技术配方:结合MoE稀疏性、长上下文压缩、低精度推理、自定义内核以及针对代理任务的后训练。
硬件信号:AI模型正在告诉芯片该走向何方
DeepSeek V4同样引人注目,因为其技术报告对硬件设计提出了明确建议。团队认为,未来硬件应优化计算与通信的比率,而非盲目提升带宽。
路透社亦报道,DeepSeek V4已适配华为昇腾芯片运行,华为表示其基于昇腾950的超节点集群完全支持V4系列。这使V4成为更宏观硬件叙事的一部分。AI竞赛正从模型权重转向全栈协同设计,模型、内核、内存系统、互联与芯片共同演进。
更低廉的智能扩大市场
DeepSeek V4最重要的影响或许在于经济层面。当长上下文推理成本下降,那些曾经看似过于昂贵的AI应用场景便变得更加可行。全代码库代理、长周期研究助手、文档密集型法律工作流、金融尽职调查工具、科学文献综述系统以及企业知识代理,都将从更低廉的内存和推理成本中获益。
这意味着DeepSeek V4重新定义了AI竞赛格局。若DeepSeek能以更低的内存和算力需求提供强大的开放模型,闭源领导者将面临更大压力,需为高额定价自证其值;开源竞争者也将承压,需追平V4的效率技术。
来源:https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/







