Wydajność wnioskowania AI NVIDIA NVLink i Fusion Drive

Rongchai Wang
22 sierpnia 2025 05:13

Technologie NVIDIA NVLink i NVLink Fusion redefiniują wydajność wnioskowania AI dzięki zwiększonej skalowalności i elastyczności, aby sprostać wykładniczemu wzrostowi złożoności modeli AI.

Szybki postęp w złożoności modeli sztucznej inteligencji (AI) znacząco zwiększył liczbę parametrów z milionów do bilionów, wymagając bezprecedensowych zasobów obliczeniowych. Ta ewolucja wymaga klastrów GPU do zarządzania obciążeniem, jak podkreślił Joe DeLaere w niedawnym wpisie na blogu NVIDIA.

Ewolucja i wpływ NVLink

NVIDIA wprowadziła NVLink w 2016 roku, aby przekroczyć ograniczenia PCIe w obliczeniach wysokiej wydajności i obciążeniach AI, ułatwiając szybszą komunikację między GPU i ujednoliconą przestrzeń pamięci. Technologia NVLink znacznie ewoluowała, a wprowadzenie NVLink Switch w 2018 roku osiągnęło przepustowość 300 GB/s w topologii 8-GPU, torując drogę dla skalowalnych struktur obliczeniowych.

Piąta generacja NVLink, wydana w 2024 roku, obsługuje 72 GPU z komunikacją typu all-to-all na poziomie 1800 GB/s, oferując łączną przepustowość 130 TB/s – 800 razy więcej niż pierwsza generacja. Ten ciągły postęp jest zgodny z rosnącą złożonością modeli AI i ich wymaganiami obliczeniowymi.

NVLink Fusion: Dostosowywanie i elastyczność

NVLink Fusion został zaprojektowany, aby zapewnić hyperscalerom dostęp do technologii skalowania NVLink, umożliwiając integrację niestandardowego krzemu z architekturą NVIDIA do wdrażania półniestandardowej infrastruktury AI. Technologia obejmuje NVLink SERDES, chiplety, przełączniki i architekturę w skali szafy, oferując modułowe rozwiązanie szafy Open Compute Project (OCP) MGX dla elastyczności integracji.

NVLink Fusion obsługuje niestandardowe konfiguracje CPU i XPU przy użyciu Universal Chiplet Interconnect Express (UCIe) IP i interfejsu, zapewniając klientom elastyczność w zakresie potrzeb integracji XPU na różnych platformach. W przypadku niestandardowych konfiguracji CPU zaleca się integrację NVIDIA NVLink-C2C IP w celu optymalnej łączności i wydajności GPU.

Maksymalizacja przychodów fabryki AI

Skalowalna struktura NVLink znacznie zwiększa produktywność fabryki AI poprzez optymalizację równowagi między przepustowością na wat a opóźnieniem. Architektura szafy 72-GPU NVIDIA odgrywa kluczową rolę w zaspokajaniu potrzeb obliczeniowych AI, umożliwiając optymalną wydajność wnioskowania w różnych przypadkach użycia. Zdolność technologii do skalowania konfiguracji maksymalizuje przychody i wydajność, nawet gdy prędkość NVLink jest stała.

Solidny ekosystem partnerski

NVLink Fusion korzysta z rozległego ekosystemu krzemowego, w tym partnerów do niestandardowego krzemu, CPU i technologii IP, zapewniając szerokie wsparcie i szybkie możliwości projektowania. Sieć partnerów systemowych i dostawców komponentów infrastruktury centrum danych już buduje systemy NVIDIA GB200 NVL72 i GB300 NVL72, przyspieszając czas wprowadzenia na rynek dla użytkowników.

Postępy w rozumowaniu AI

NVLink stanowi znaczący krok naprzód w zaspokajaniu zapotrzebowania na moc obliczeniową w erze rozumowania AI. Wykorzystując dekadę doświadczenia w technologiach NVLink i otwarte standardy architektury szafy OCP MGX, NVLink Fusion wyposaża hyperscalery w wyjątkową wydajność i opcje dostosowywania.

Źródło obrazu: Shutterstock

Źródło: https://blockchain.news/news/nvidia-nvlink-fusion-ai-inference-performance