TLDRs; DeepSeek 推出了 V3.2-exp,這是一款實驗性 AI 模型,將長上下文任務的推理成本降低了近一半。該模型使用「稀疏注意力」和「閃電索引器」來更高效地處理長輸入。作為開放權重模型在 Hugging Face 上發布,它允許第三方測試和基準測試。DeepSeek 面臨來自資金雄厚的中國科技公司的日益增長的競爭 [...] 這篇文章「新 DeepSeek 模型將擴展上下文的 API 成本減半」首次發表於 CoinCentral。TLDRs; DeepSeek 推出了 V3.2-exp,這是一款實驗性 AI 模型,將長上下文任務的推理成本降低了近一半。該模型使用「稀疏注意力」和「閃電索引器」來更高效地處理長輸入。作為開放權重模型在 Hugging Face 上發布,它允許第三方測試和基準測試。DeepSeek 面臨來自資金雄厚的中國科技公司的日益增長的競爭 [...] 這篇文章「新 DeepSeek 模型將擴展上下文的 API 成本減半」首次發表於 CoinCentral。

新的 DeepSeek 模型將延長上下文的 API 成本降低了一半

2025/09/30 21:59

TLDRs;

  • DeepSeek 推出了 V3.2-exp,這是一款實驗性 AI 模型,能將長上下文任務的推理成本降低了近一半。
  • 該模型使用「稀疏注意力」和「閃電索引器」來更高效地處理長輸入。
  • 作為開放權重模型在 Hugging Face 上發布,允許第三方測試和基準評估。
  • DeepSeek 面臨來自資金雄厚的中國科技巨頭擴展 AI 業務的日益激烈競爭。

總部位於中國的 AI 初創公司 DeepSeek 推出了其最新的實驗性語言模型 V3.2-exp,旨在將長上下文任務的推理成本降低了近一半。

這款週一宣布的模型,旨在解決大規模 AI 採用中最緊迫的挑戰之一:處理長輸入的高昂成本。

V3.2-exp 利用了一個名為 DeepSeek 稀疏注意力的新系統,該系統將「閃電索引器」與用於精細標記選擇的次級模組配對。

這些創新共同使模型能夠專注於最相關的摘錄,同時精確管理標記級別的細節。早期內部測試表明,該系統能顯著減輕伺服器負載,長上下文操作的 API 成本可能降低了 50%。

開放權重模型現已可用

與許多保持封閉的商業 AI 發布不同,V3.2-exp 已作為開放權重模型推出。它現在可在 Hugging Face 上訪問,為研究人員、開發者和企業提供了進行獨立評估的機會。

這一決定凸顯了 DeepSeek 持續推動透明度和協作的努力,尤其是在公司越來越仔細審查效率和性能聲明的情況下。

該模型的開放發布也與 DeepSeek 今年早些時候對其 R1 模型採取的策略一致,當時開放基準測試允許社區驗證其推理能力。通過對 V3.2-exp 採用相同的方法,DeepSeek 表明了對其效率突破的信心。

基於過往發布的基礎

V3.2-exp 的推出是在 DeepSeek 近幾個月進行的一系列更新和實驗之後。今年九月初,該公司推出了 DeepSeek-V3.1-Terminus,這是一項旨在改進代理性能並解決報告的問題(如難以辨認的符號和不一致的語言切換)的改進。

雖然該更新在「人類最後考試」和編碼任務等基準測試中帶來了小幅改進,但一些挑戰仍然存在,特別是在中文性能方面。

同時,行業報告揭示 DeepSeek 正在開發一款下一代以代理為中心的模型,計劃在 2025 年第四季度揭曉。該項目反映了行業向自主 AI 系統的更廣泛轉變,能夠在最少人工監督下執行多步驟任務。V3.2-exp 的發布似乎通過在推出更高級的代理功能之前加強公司在效率方面的技術基礎來補充這一軌跡。

競爭格局升溫

DeepSeek 的創新出現在中國 AI 領域競爭日益激烈的時刻。阿里巴巴和騰訊等競爭對手正大幅擴大其 AI 投資,阿里巴巴承諾投入超過 3800 億人民幣(529 億美元)用於雲計算和 AI 基礎設施。

雖然 DeepSeek 因以相對有限的資源實現成本效益而受到讚譽,但分析師警告說,該公司必須保持發展勢頭,以避免被資金雄厚的競爭對手所掩蓋。

這篇文章「新 DeepSeek 模型將擴展上下文的 API 成本降低了一半」首次發表於 CoinCentral。

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。