阿里雲Qwen團隊推出了全新Qwen3.5系列的首款產品,即輕量化Qwen3.5‑397B‑A17B。  該模型定位為原生視覺語言系統,在推理、編碼、代理任務和多模態理解方面均表現…阿里雲Qwen團隊推出了全新Qwen3.5系列的首款產品,即輕量化Qwen3.5‑397B‑A17B。  該模型定位為原生視覺語言系統,在推理、編碼、代理任務和多模態理解方面均表現…

Qwen推出全新視覺語言模型,提升編碼、推理與多模態人工智慧效能

2026/02/17 10:33
阅读时长 6 分钟
Qwen推出全新視覺語言模型,提升編碼、推理與多模態人工智慧效能

阿里雲Qwen團隊推出了全新Qwen3.5系列的首款產品,即輕量化Qwen3.5‑397B‑A17B。 

該模型定位為原生視覺語言系統,在推理、編碼、代理任務和多模態理解方面均表現出色,體現了該公司在大規模人工智慧開發方面取得的重大進展。 

該模型基於混合架構構建,結合了門控Delta網路的線性注意力機制和稀疏混合專家模型,從而實現了高效的推理。儘管整個系統包含397億個參數,但每次前向傳播僅啟動17億個參數,這使得系統能夠在保持高效能的同時降低計算成本。此次發布也將語言和方言覆蓋範圍從119種擴展到201種,進一步提升了全球用戶和開發者的使用體驗。

Qwen3.5 標誌著強化學習和預訓練效率的重大飛躍

Qwen3.5 系列相比 Qwen3 有了顯著提升,這主要得益於強化學習在各種環境下的廣泛擴展。團隊並未專注於優化特定基準測試,而是致力於提升任務難度和泛化能力,從而在 BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark 等評估測試中顯著提高了智能體的性能。更多結果將在即將發布的技術報告中詳細介紹。

預訓練的改進涵蓋了性能、效率和通用性。 Qwen3.5 使用規模顯著更大的視覺文字資料進行訓練,並增強了多語言、STEM 和推理內容,使其表現能夠媲美早期萬億參數模型。架構升級——包括更高稀疏度的 MoE、混合注意力機制、穩定性改進和多標記預測——顯著提升了吞吐量,尤其是在 32k 和 256k 個標記的擴展上下文長度下。透過早期文字-視覺融合和涵蓋圖像、STEM 材料和視訊的擴展資料集,模型的多模態能力得到增強,而更大的 250k 個詞彙表則提高了大多數語言的編碼和解碼效率。

Qwen3.5 的基礎架構旨在實現高效的多模態訓練。異質平行策略將視覺和語言組件分離,避免出現瓶頸;稀疏激活函數即使在混合文字-圖像-視訊工作負載下也能實現接近滿載的吞吐量。原生 FP8 管線將啟動記憶體減少約一半,並將訓練速度提高 10% 以上,同時在大規模 token 處理下保持穩定。 

強化學習由一個完全非同步的框架支持,該框架能夠處理各種規模的模型,從而提高硬體利用率、負載平衡和故障恢復能力。諸如 FP8 端對端訓練、推測性解碼、滾動路由重播和多輪滾動鎖定等技術有助於保持一致性並減少梯度老化。該系統旨在支援大規模智能體工作流程,實現無縫的多輪互動和跨環境的廣泛泛化能力。

使用者可以透過 Qwen Chat 與 Qwen3.5 進行交互,Qwen Chat 根據任務類型提供自動、思考和快速三種模式。此模型也可透過阿里雲 ModelStudio 使用,使用者只需簡單的參數即可啟用推理、網路搜尋和程式碼執行等進階功能。此外,Qwen3.5 還與第三方編碼工具集成,使開發者能夠輕鬆地將其融入現有工作流程。

根據Qwen團隊介紹,Qwen3.5透過其混合架構和原生多模態推理能力,為通用數位代理奠定了基礎。未來的開發將側重於系統級集成,包括用於跨會話學習的持久記憶、用於現實世界交互的具身界面、自主改進機制以及用於長期自主運行的經濟意識。其目標是超越特定任務助手,建構能夠以可靠且符合人類判斷的方式管理複雜、多日目標的連貫、持久的代理。


Source link

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。