Timothy Morano
2025年11月10日 06:48
NVIDIA的GB200 NVL72引入了ComputeDomains,用于在Kubernetes上高效管理AI工作负载,促进节点间安全、高带宽的GPU连接。
NVIDIA推出了GB200 NVL72,这是AI基础设施的重大进步,它增强了在Kubernetes上部署和扩展AI工作负载的能力。据NVIDIA称,这一创新将重新定义大型语言模型的训练方式以及可扩展、低延迟推理工作负载的管理方式。
ComputeDomains:一种新的抽象
这一发展的核心在于一种名为ComputeDomains的新型Kubernetes抽象。这种抽象旨在简化使用多节点NVLink架构确保节点间安全GPU到GPU内存操作的复杂性。ComputeDomains被集成到NVIDIA DRA GPU驱动程序中,将NVIDIA NVLink和IMEX等低级GPU构造与Kubernetes原生调度概念连接起来。
ComputeDomains通过在工作负载调度时动态创建和管理IMEX域,解决了静态、手动定义的NVLink设置的局限性。这种灵活性增强了安全隔离、容错性和成本效益,使其成为现代AI基础设施的强大解决方案。
GPU系统设计的进步
从单节点到多节点GPU计算的演变至关重要。早期的NVIDIA DGX系统仅限于节点内扩展。然而,借助NVIDIA的多节点NVLink(MNNVL),不同服务器上的GPU可以以完整的NVLink带宽进行通信,将整个机架转变为统一的GPU架构。这实现了无缝性能扩展,并为超快速分布式训练和推理奠定了基础。
ComputeDomains利用这一进步,提供了支持多节点NVLink的Kubernetes原生方式,已经成为NVIDIA Kubernetes堆栈中几个高级组件的基础。
实施和优势
NVIDIA DRA GPU驱动程序现在提供ComputeDomains,它在工作负载调度和完成时动态管理IMEX域。这种动态管理确保每个工作负载都有自己独立的IMEX域,促进安全的GPU到GPU通信,同时保持高资源利用率。
ComputeDomains允许跨节点无缝集成和管理,随着工作负载的增长或缩小动态调整。这不仅增强了安全性和故障隔离,还最大化了资源利用率,特别是在多租户环境中。
未来展望
NVIDIA DRA GPU驱动程序的最新版本25.8.0包含了对ComputeDomains的重大改进。这些增强旨在提供更灵活的调度和易用性,解决当前的限制,如每节点单个pod的约束,并提高资源利用率。
随着NVIDIA继续推动AI基础设施的边界,ComputeDomains有望成为GB200 NVL72等平台上可扩展、拓扑感知AI编排的基石。这些创新承诺简化多节点训练和推理,使分布式工作负载在Kubernetes上更容易部署和管理。
图片来源:Shutterstock
来源:https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads


