NVIDIA Nemotron 3 Super 登陆 Together AI,支持 100 万个 Token 上下文窗口
Jessie A Ellis 2026年3月11日 21:43
NVIDIA 的 1200 亿参数 Nemotron 3 Super 模型现已在 Together AI 上推出,为多代理 AI 系统和企业工作负载提供 5 倍的吞吐量提升。
Together AI 于 3 月 11 日宣布在其专用推理平台上提供 NVIDIA 的 Nemotron 3 Super,让企业开发者能够访问专为多代理 AI 系统优化的 1200 亿参数推理模型。NVIDIA 股价报 186.03 美元,受此消息影响上涨 0.66%。
时机很重要。Nemotron 3 Super 是 NVIDIA 在 Nemotron 3 系列中推出的第二个开放权重模型,继 12 月发布的 Nano 之后,针对生产 AI 中的一个特定痛点:大规模运行复杂代理工作流的计算开销。
架构为何重要
这就是这个模型与典型参数数量竞赛的不同之处。尽管其总参数达 1200 亿,但在推理过程中只有 120 亿处于活跃状态。这种混合设计——结合 Transformer 注意力机制和 Mamba 序列处理——实现了 NVIDIA 所声称的比之前的 Nemotron Super 模型高 5 倍的吞吐量。
100 万个 Token 的上下文窗口解决了开发者所说的"上下文爆炸"问题。多代理应用程序消耗的 Token 可能是标准聊天交互的 15 倍,而大多数模型在这种负载下会崩溃。Nemotron 3 Super 可以处理整个代码库、冗长的文档存储和扩展的代理轨迹,而不会出现性能下降。
多 Token 预测训练允许模型在每次前向传递中同时生成多个 Token。对于代码生成或结构化输出,NVIDIA 报告称与领先的开放模型相比,Token 生成速度提高了 50%。
Together AI 的策略
运行具有百万 Token 上下文的 1200 亿混合模型通常需要跨多个节点的分布式计算。Together AI 的专用推理服务简化了部署,只需单个 NVIDIA H200 或 H100 GPU——开发者无需自行配置 GPU。
该平台承诺 99.9% 的正常运行时间 SLA 和 SOC 2 合规性,将其定位为企业级基础设施,而非研究级实验。
生产应用
目标用例包括分析代码库的开发者助手、企业文档处理系统、网络安全漏洞分类以及跨专业代理路由任务的编排层。
开放权重方法——根据 NVIDIA 的 Nemotron 开放模型许可证发布——允许团队针对特定环境进行微调并在本地部署,这对于有数据主权要求的企业来说是关键考虑因素。
NVIDIA 还于 3 月 10 日宣布推出 NemoClaw,这是一个用于 AI 代理的开源平台,可以补充 Nemotron 3 Super 的部署。开发者可以立即通过 Together AI 的专用推理层访问该模型。
图片来源:Shutterstock- nvidia
- AI 基础设施
- nemotron
- together ai
- 企业 AI



