La startup chinoise d'IA DeepSeek a dévoilé son nouveau modèle de langage expérimental, V3.2-exp, conçu pour réduire de près de moitié les coûts d'inférence pour les tâches à contexte long.
Le modèle, annoncé lundi, vise à résoudre l'un des défis les plus pressants dans l'adoption de l'IA à grande échelle : le coût de traitement des entrées étendues.
V3.2-exp exploite un nouveau système appelé DeepSeek Sparse Attention, qui associe un "lightning indexer" à un module secondaire pour une sélection fine des tokens.
Ensemble, ces innovations permettent au modèle de se concentrer sur les extraits les plus pertinents tout en gérant les détails au niveau des tokens avec précision. Les premiers tests internes suggèrent que le système peut réduire significativement la charge des serveurs, avec des coûts d'API potentiellement réduits de 50% pour les opérations à contexte long.
Contrairement à de nombreuses versions commerciales d'IA qui restent fermées, V3.2-exp a été lancé comme un modèle open-weight. Il est désormais accessible sur Hugging Face, donnant aux chercheurs, développeurs et entreprises l'opportunité de réaliser des évaluations indépendantes.
Cette décision souligne l'engagement continu de DeepSeek en faveur de la transparence et de la collaboration, surtout à mesure que les entreprises examinent de plus en plus les affirmations concernant l'efficacité et les performances.
La publication ouverte du modèle s'aligne également avec la stratégie précédente de DeepSeek pour son modèle R1 plus tôt cette année, où l'évaluation ouverte a permis à la communauté de vérifier ses capacités de raisonnement. En adoptant la même approche pour V3.2-exp, DeepSeek signale sa confiance dans ses avancées en matière d'efficacité.
Le lancement de V3.2-exp intervient après une série de mises à jour et d'expériences de DeepSeek ces derniers mois. Plus tôt en septembre, l'entreprise a introduit DeepSeek-V3.1-Terminus, un perfectionnement visant à améliorer les performances des agents d'IA et à résoudre les problèmes signalés tels que les symboles illisibles et les changements de langue incohérents.
Bien que cette mise à jour ait apporté de petites améliorations dans des benchmarks comme Humanity's Last Exam et les tâches de codage, certains défis demeurent, particulièrement dans les performances en langue chinoise.
Pendant ce temps, des rapports de l'industrie ont révélé que DeepSeek travaille sur un modèle de nouvelle génération axé sur les agents, dont le dévoilement est prévu pour le quatrième trimestre 2025. Le projet reflète une évolution plus large de l'industrie vers des systèmes d'IA autonomes, capables d'exécuter des tâches à plusieurs étapes avec une supervision humaine minimale. La sortie de V3.2-exp semble compléter cette trajectoire en renforçant la base technologique de l'entreprise en matière d'efficacité avant le déploiement de fonctionnalités d'agents plus avancées.
L'innovation de DeepSeek intervient à un moment où la concurrence dans le secteur chinois de l'IA s'intensifie. Des entreprises rivales comme Alibaba et Tencent augmentent considérablement leurs investissements dans l'IA, Alibaba s'engageant à investir plus de 380 milliards de RMB (52,9 milliards de dollars) dans le cloud computing et l'infrastructure d'IA.
Bien que DeepSeek ait été salué pour avoir obtenu des résultats rentables avec des ressources comparativement modestes, les analystes avertissent que l'entreprise doit maintenir son élan pour éviter d'être éclipsée par ses rivaux aux ressources financières importantes.
L'article New DeepSeek Model Halves API Costs for Extended Contexts est apparu en premier sur CoinCentral.


