Rongchai Wang
22 août 2025 05:13
Les technologies NVLink et NVLink Fusion de NVIDIA redéfinissent les performances d'inférence IA avec une scalabilité et une flexibilité améliorées pour répondre à la croissance exponentielle de la complexité des modèles d'IA.
L'avancement rapide de la complexité des modèles d'intelligence artificielle (IA) a considérablement augmenté le nombre de paramètres, passant de millions à billions, nécessitant des ressources informatiques sans précédent. Cette évolution exige des clusters de GPU pour gérer la charge, comme l'a souligné Joe DeLaere dans un récent article de blog NVIDIA.
L'évolution et l'impact de NVLink
NVIDIA a introduit NVLink en 2016 pour dépasser les limitations du PCIe dans le calcul haute performance et les charges de travail d'IA, facilitant une communication GPU-à-GPU plus rapide et un espace mémoire unifié. La technologie NVLink a considérablement évolué, avec l'introduction du NVLink Switch en 2018 atteignant une bande passante tous-à-tous de 300 GB/s dans une topologie à 8 GPU, ouvrant la voie à des tissus de calcul évolutifs.
La cinquième génération de NVLink, lancée en 2024, prend en charge 72 GPU avec une communication tous-à-tous à 1 800 GB/s, offrant une bande passante agrégée de 130 TB/s—800 fois plus que la première génération. Cette avancée continue s'aligne sur la complexité croissante des modèles d'IA et leurs exigences computationnelles.
NVLink Fusion : Personnalisation et flexibilité
NVLink Fusion est conçu pour fournir aux hyperscalers un accès aux technologies d'évolutivité de NVLink, permettant l'intégration de silicium personnalisé avec l'architecture de NVIDIA pour le déploiement d'infrastructures d'IA semi-personnalisées. La technologie englobe NVLink SERDES, les chiplets, les commutateurs et l'architecture à l'échelle du rack, offrant une solution modulaire de rack MGX Open Compute Project (OCP) pour une flexibilité d'intégration.
NVLink Fusion prend en charge les configurations CPU et XPU personnalisées en utilisant l'IP et l'interface Universal Chiplet Interconnect Express (UCIe), offrant aux clients une flexibilité pour leurs besoins d'intégration XPU sur différentes plateformes. Pour les configurations CPU personnalisées, l'intégration de l'IP NVIDIA NVLink-C2C est recommandée pour une connectivité et des performances GPU optimales.
Maximiser les revenus de l'usine d'IA
Le tissu d'évolutivité NVLink améliore considérablement la productivité de l'usine d'IA en optimisant l'équilibre entre le débit par watt et la latence. L'architecture de rack à 72 GPU de NVIDIA joue un rôle crucial pour répondre aux besoins de calcul d'IA, permettant des performances d'inférence optimales dans divers cas d'utilisation. La capacité de la technologie à faire évoluer les configurations maximise les revenus et les performances, même lorsque la vitesse de NVLink est constante.
Un écosystème de partenaires robuste
NVLink Fusion bénéficie d'un vaste écosystème de silicium, comprenant des partenaires pour le silicium personnalisé, les CPU et la technologie IP, assurant un large support et des capacités de conception rapide. Le réseau de partenaires système et les fournisseurs de composants d'infrastructure de centre de données construisent déjà des systèmes NVIDIA GB200 NVL72 et GB300 NVL72, accélérant le temps de mise sur le marché des adoptants.
Avancées dans le raisonnement IA
NVLink représente un bond significatif pour répondre à la demande de calcul à l'ère du raisonnement IA. En s'appuyant sur une décennie d'expertise dans les technologies NVLink et les standards ouverts de l'architecture de rack OCP MGX, NVLink Fusion donne aux hyperscalers des performances exceptionnelles et des options de personnalisation.
Source de l'image : Shutterstock
Source : https://blockchain.news/news/nvidia-nvlink-fusion-ai-inference-performance



