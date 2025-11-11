

Timothy Morano



NVIDIA GB200 NVL72 memperkenalkan ComputeDomains untuk manajemen beban kerja AI yang efisien di Kubernetes, memfasilitasi konektivitas GPU bandwidth tinggi yang aman di seluruh node.

NVIDIA telah mengungkapkan kemajuan signifikan dalam infrastruktur AI dengan pengenalan GB200 NVL72, yang meningkatkan penerapan dan penskalaan beban kerja AI di Kubernetes. Inovasi ini akan mendefinisikan ulang bagaimana model bahasa besar dilatih dan beban kerja inferensi latensi rendah yang dapat diskalakan dikelola, menurut NVIDIA.

ComputeDomains: Abstraksi Baru

Inti dari pengembangan ini terletak pada abstraksi Kubernetes baru yang disebut ComputeDomains. Abstraksi ini dirancang untuk menyederhanakan kompleksitas dalam memastikan operasi memori GPU-ke-GPU yang aman di seluruh node menggunakan fabric NVLink multi-node. ComputeDomains terintegrasi ke dalam driver NVIDIA DRA untuk GPU, menjembatani konstruksi GPU tingkat rendah seperti NVIDIA NVLink dan IMEX dengan konsep penjadwalan native Kubernetes.

ComputeDomains mengatasi keterbatasan pengaturan NVLink statis yang didefinisikan secara manual dengan membuat dan mengelola domain IMEX secara dinamis saat beban kerja dijadwalkan. Fleksibilitas ini meningkatkan isolasi keamanan, toleransi kesalahan, dan efisiensi biaya, menjadikannya solusi yang kuat untuk infrastruktur AI modern.

Kemajuan dalam Desain Sistem GPU

Evolusi dari komputasi GPU node tunggal ke multi-node telah menjadi penting. Sistem NVIDIA DGX sebelumnya terbatas pada penskalaan intra-node. Namun, dengan Multi-Node NVLink (MNNVL) NVIDIA, GPU di berbagai server dapat berkomunikasi pada bandwidth NVLink penuh, mengubah seluruh rak menjadi fabric GPU terpadu. Ini memungkinkan penskalaan kinerja yang mulus dan membentuk dasar untuk pelatihan dan inferensi terdistribusi yang sangat cepat.

ComputeDomains memanfaatkan kemajuan ini dengan menyediakan cara native Kubernetes untuk mendukung NVLink multi-node, yang sudah membentuk dasar untuk beberapa komponen tingkat lebih tinggi dalam tumpukan Kubernetes NVIDIA.

Implementasi dan Manfaat

Driver NVIDIA DRA untuk GPU kini menawarkan ComputeDomains, yang secara dinamis mengelola domain IMEX saat beban kerja dijadwalkan dan diselesaikan. Pengelolaan dinamis ini memastikan bahwa setiap beban kerja mendapatkan domain IMEX terisolasi sendiri, memfasilitasi komunikasi GPU-ke-GPU yang aman sambil mempertahankan pemanfaatan sumber daya yang tinggi.

ComputeDomains memungkinkan integrasi dan manajemen yang mulus di seluruh node, menyesuaikan secara dinamis saat beban kerja bertambah atau berkurang. Ini tidak hanya meningkatkan keamanan dan isolasi kesalahan tetapi juga memaksimalkan pemanfaatan sumber daya, terutama di lingkungan multi-tenant.

Prospek Masa Depan

Rilis terbaru driver NVIDIA DRA untuk GPU, versi 25.8.0, mencakup peningkatan signifikan untuk ComputeDomains. Peningkatan ini bertujuan untuk menyediakan penjadwalan yang lebih fleksibel dan kemudahan penggunaan, mengatasi keterbatasan saat ini seperti batasan pod tunggal per node dan meningkatkan pemanfaatan sumber daya.

Saat NVIDIA terus mendorong batas infrastruktur AI, ComputeDomains siap menjadi landasan untuk orkestrasi AI yang dapat diskalakan dan sadar topologi pada platform seperti GB200 NVL72. Inovasi ini menjanjikan untuk merampingkan pelatihan dan inferensi multi-node, membuat beban kerja terdistribusi lebih mudah untuk diterapkan dan dikelola di Kubernetes.

Sumber gambar: Shutterstock