文章《Kubernetes 采用多节点 NVLink 增强 AI 工作负载》发布于 BitcoinEthereumNews.com。 Timothy Morano 2025年11月10日 06:48 NVIDIA 的 GB200 NVL72 引入 ComputeDomains 用于在 Kubernetes 上高效管理 AI 工作负载,促进节点间安全、高带宽的 GPU 连接。 NVIDIA 通过推出 GB200 NVL72 在 AI 基础设施方面取得了重大进展,该产品增强了 Kubernetes 上 AI 工作负载的部署和扩展。根据 NVIDIA 的说法,这一创新将重新定义大型语言模型的训练方式和可扩展、低延迟推理工作负载的管理方式。ComputeDomains:一种新的抽象 这一发展的核心在于一种名为 ComputeDomains 的新型 Kubernetes 抽象。该抽象旨在简化使用多节点 NVLink 结构确保节点间安全 GPU 到 GPU 内存操作的复杂性。ComputeDomains 集成到 NVIDIA 用于 GPU 的 DRA 驱动程序中,将 NVIDIA NVLink 和 IMEX 等低级 GPU 构造与 Kubernetes 原生调度概念连接起来。ComputeDomains 通过在工作负载调度时动态创建和管理 IMEX 域,解决了静态、手动定义的 NVLink 设置的局限性。这种灵活性增强了安全隔离、容错性和成本效率,使其成为现代 AI 基础设施的强大解决方案。GPU 系统设计的进步 从单节点到多节点 GPU 计算的演变至关重要。早期的 NVIDIA DGX 系统仅限于节点内扩展。然而,借助 NVIDIA 的多节点 NVLink (MNNVL),不同服务器上的 GPU 可以以完整的 NVLink 带宽进行通信,将整个机架转变为统一的 GPU 结构。这实现了无缝性能扩展,并为超快速分布式训练和推理奠定了基础。ComputeDomains 利用这一进步提供了支持多节点 NVLink 的 Kubernetes 原生方式,已经成为 NVIDIA Kubernetes 堆栈中几个高级组件的基础。实施和优势 NVIDIA 用于 GPU 的 DRA 驱动程序现在提供 ComputeDomains,随着工作负载的调度和完成动态管理 IMEX 域。这种动态管理确保...文章《Kubernetes 采用多节点 NVLink 增强 AI 工作负载》发布于 BitcoinEthereumNews.com。 Timothy Morano 2025年11月10日 06:48 NVIDIA 的 GB200 NVL72 引入 ComputeDomains 用于在 Kubernetes 上高效管理 AI 工作负载,促进节点间安全、高带宽的 GPU 连接。 NVIDIA 通过推出 GB200 NVL72 在 AI 基础设施方面取得了重大进展,该产品增强了 Kubernetes 上 AI 工作负载的部署和扩展。根据 NVIDIA 的说法,这一创新将重新定义大型语言模型的训练方式和可扩展、低延迟推理工作负载的管理方式。ComputeDomains:一种新的抽象 这一发展的核心在于一种名为 ComputeDomains 的新型 Kubernetes 抽象。该抽象旨在简化使用多节点 NVLink 结构确保节点间安全 GPU 到 GPU 内存操作的复杂性。ComputeDomains 集成到 NVIDIA 用于 GPU 的 DRA 驱动程序中,将 NVIDIA NVLink 和 IMEX 等低级 GPU 构造与 Kubernetes 原生调度概念连接起来。ComputeDomains 通过在工作负载调度时动态创建和管理 IMEX 域,解决了静态、手动定义的 NVLink 设置的局限性。这种灵活性增强了安全隔离、容错性和成本效率,使其成为现代 AI 基础设施的强大解决方案。GPU 系统设计的进步 从单节点到多节点 GPU 计算的演变至关重要。早期的 NVIDIA DGX 系统仅限于节点内扩展。然而,借助 NVIDIA 的多节点 NVLink (MNNVL),不同服务器上的 GPU 可以以完整的 NVLink 带宽进行通信,将整个机架转变为统一的 GPU 结构。这实现了无缝性能扩展,并为超快速分布式训练和推理奠定了基础。ComputeDomains 利用这一进步提供了支持多节点 NVLink 的 Kubernetes 原生方式,已经成为 NVIDIA Kubernetes 堆栈中几个高级组件的基础。实施和优势 NVIDIA 用于 GPU 的 DRA 驱动程序现在提供 ComputeDomains,随着工作负载的调度和完成动态管理 IMEX 域。这种动态管理确保...

Kubernetes 拥抱多节点 NVLink 以增强 AI 工作负载



Timothy Morano
2025年11月10日 06:48

NVIDIA的GB200 NVL72引入了ComputeDomains,用于在Kubernetes上高效管理AI工作负载,促进节点间安全、高带宽的GPU连接。

NVIDIA推出了GB200 NVL72,这是AI基础设施的重大进步,它增强了在Kubernetes上部署和扩展AI工作负载的能力。据NVIDIA称,这一创新将重新定义大型语言模型的训练方式以及可扩展、低延迟推理工作负载的管理方式。

ComputeDomains:一种新的抽象

这一发展的核心在于一种名为ComputeDomains的新型Kubernetes抽象。这种抽象旨在简化使用多节点NVLink架构确保节点间安全GPU到GPU内存操作的复杂性。ComputeDomains被集成到NVIDIA DRA GPU驱动程序中,将NVIDIA NVLink和IMEX等低级GPU构造与Kubernetes原生调度概念连接起来。

ComputeDomains通过在工作负载调度时动态创建和管理IMEX域,解决了静态、手动定义的NVLink设置的局限性。这种灵活性增强了安全隔离、容错性和成本效益,使其成为现代AI基础设施的强大解决方案。

GPU系统设计的进步

从单节点到多节点GPU计算的演变至关重要。早期的NVIDIA DGX系统仅限于节点内扩展。然而,借助NVIDIA的多节点NVLink(MNNVL),不同服务器上的GPU可以以完整的NVLink带宽进行通信,将整个机架转变为统一的GPU架构。这实现了无缝性能扩展,并为超快速分布式训练和推理奠定了基础。

ComputeDomains利用这一进步,提供了支持多节点NVLink的Kubernetes原生方式,已经成为NVIDIA Kubernetes堆栈中几个高级组件的基础。

实施和优势

NVIDIA DRA GPU驱动程序现在提供ComputeDomains,它在工作负载调度和完成时动态管理IMEX域。这种动态管理确保每个工作负载都有自己独立的IMEX域,促进安全的GPU到GPU通信,同时保持高资源利用率。

ComputeDomains允许跨节点无缝集成和管理,随着工作负载的增长或缩小动态调整。这不仅增强了安全性和故障隔离,还最大化了资源利用率,特别是在多租户环境中。

未来展望

NVIDIA DRA GPU驱动程序的最新版本25.8.0包含了对ComputeDomains的重大改进。这些增强旨在提供更灵活的调度和易用性,解决当前的限制,如每节点单个pod的约束,并提高资源利用率。

随着NVIDIA继续推动AI基础设施的边界,ComputeDomains有望成为GB200 NVL72等平台上可扩展、拓扑感知AI编排的基石。这些创新承诺简化多节点训练和推理,使分布式工作负载在Kubernetes上更容易部署和管理。

图片来源:Shutterstock

来源:https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。