NVIDIA 的 120B 参数 Nemotron 3 Super 模型现已在 Together AI 上推出,为多代理 AI 系统和企业工作负载提供 5 倍的吞吐量提升。(NVIDIA 的 120B 参数 Nemotron 3 Super 模型现已在 Together AI 上推出,为多代理 AI 系统和企业工作负载提供 5 倍的吞吐量提升。(

NVIDIA Nemotron 3 Super 以 1M Token 上下文窗口登陆 Together AI

2026/03/12 05:43
阅读时长 5 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

NVIDIA Nemotron 3 Super 登陆 Together AI,支持 100 万个 Token 上下文窗口

Jessie A Ellis 2026年3月11日 21:43

NVIDIA 的 1200 亿参数 Nemotron 3 Super 模型现已在 Together AI 上推出,为多代理 AI 系统和企业工作负载提供 5 倍的吞吐量提升。

NVIDIA Nemotron 3 Super 登陆 Together AI,支持 100 万个 Token 上下文窗口

Together AI 于 3 月 11 日宣布在其专用推理平台上提供 NVIDIA 的 Nemotron 3 Super,让企业开发者能够访问专为多代理 AI 系统优化的 1200 亿参数推理模型。NVIDIA 股价报 186.03 美元,受此消息影响上涨 0.66%。

时机很重要。Nemotron 3 Super 是 NVIDIA 在 Nemotron 3 系列中推出的第二个开放权重模型,继 12 月发布的 Nano 之后,针对生产 AI 中的一个特定痛点:大规模运行复杂代理工作流的计算开销。

架构为何重要

这就是这个模型与典型参数数量竞赛的不同之处。尽管其总参数达 1200 亿,但在推理过程中只有 120 亿处于活跃状态。这种混合设计——结合 Transformer 注意力机制和 Mamba 序列处理——实现了 NVIDIA 所声称的比之前的 Nemotron Super 模型高 5 倍的吞吐量。

100 万个 Token 的上下文窗口解决了开发者所说的"上下文爆炸"问题。多代理应用程序消耗的 Token 可能是标准聊天交互的 15 倍,而大多数模型在这种负载下会崩溃。Nemotron 3 Super 可以处理整个代码库、冗长的文档存储和扩展的代理轨迹,而不会出现性能下降。

多 Token 预测训练允许模型在每次前向传递中同时生成多个 Token。对于代码生成或结构化输出,NVIDIA 报告称与领先的开放模型相比,Token 生成速度提高了 50%。

Together AI 的策略

运行具有百万 Token 上下文的 1200 亿混合模型通常需要跨多个节点的分布式计算。Together AI 的专用推理服务简化了部署,只需单个 NVIDIA H200 或 H100 GPU——开发者无需自行配置 GPU。

该平台承诺 99.9% 的正常运行时间 SLA 和 SOC 2 合规性,将其定位为企业级基础设施,而非研究级实验。

生产应用

目标用例包括分析代码库的开发者助手、企业文档处理系统、网络安全漏洞分类以及跨专业代理路由任务的编排层。

开放权重方法——根据 NVIDIA 的 Nemotron 开放模型许可证发布——允许团队针对特定环境进行微调并在本地部署,这对于有数据主权要求的企业来说是关键考虑因素。

NVIDIA 还于 3 月 10 日宣布推出 NemoClaw,这是一个用于 AI 代理的开源平台,可以补充 Nemotron 3 Super 的部署。开发者可以立即通过 Together AI 的专用推理层访问该模型。

图片来源:Shutterstock
  • nvidia
  • AI 基础设施
  • nemotron
  • together ai
  • 企业 AI
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。