NVIDIA Nemotron 3 Super 登陆 Together AI，支持 100 万个 Token 上下文窗口

Jessie A Ellis 2026年3月11日 21:43

NVIDIA 的 1200 亿参数 Nemotron 3 Super 模型现已在 Together AI 上推出，为多代理 AI 系统和企业工作负载提供 5 倍的吞吐量提升。

Together AI 于 3 月 11 日宣布在其专用推理平台上提供 NVIDIA 的 Nemotron 3 Super，让企业开发者能够访问专为多代理 AI 系统优化的 1200 亿参数推理模型。NVIDIA 股价报 186.03 美元，受此消息影响上涨 0.66%。

时机很重要。Nemotron 3 Super 是 NVIDIA 在 Nemotron 3 系列中推出的第二个开放权重模型，继 12 月发布的 Nano 之后，针对生产 AI 中的一个特定痛点：大规模运行复杂代理工作流的计算开销。

架构为何重要

这就是这个模型与典型参数数量竞赛的不同之处。尽管其总参数达 1200 亿，但在推理过程中只有 120 亿处于活跃状态。这种混合设计——结合 Transformer 注意力机制和 Mamba 序列处理——实现了 NVIDIA 所声称的比之前的 Nemotron Super 模型高 5 倍的吞吐量。

100 万个 Token 的上下文窗口解决了开发者所说的"上下文爆炸"问题。多代理应用程序消耗的 Token 可能是标准聊天交互的 15 倍，而大多数模型在这种负载下会崩溃。Nemotron 3 Super 可以处理整个代码库、冗长的文档存储和扩展的代理轨迹，而不会出现性能下降。

多 Token 预测训练允许模型在每次前向传递中同时生成多个 Token。对于代码生成或结构化输出，NVIDIA 报告称与领先的开放模型相比，Token 生成速度提高了 50%。

运行具有百万 Token 上下文的 1200 亿混合模型通常需要跨多个节点的分布式计算。Together AI 的专用推理服务简化了部署，只需单个 NVIDIA H200 或 H100 GPU——开发者无需自行配置 GPU。

该平台承诺 99.9% 的正常运行时间 SLA 和 SOC 2 合规性，将其定位为企业级基础设施，而非研究级实验。

目标用例包括分析代码库的开发者助手、企业文档处理系统、网络安全漏洞分类以及跨专业代理路由任务的编排层。

开放权重方法——根据 NVIDIA 的 Nemotron 开放模型许可证发布——允许团队针对特定环境进行微调并在本地部署，这对于有数据主权要求的企业来说是关键考虑因素。

NVIDIA 还于 3 月 10 日宣布推出 NemoClaw，这是一个用于 AI 代理的开源平台，可以补充 Nemotron 3 Super 的部署。开发者可以立即通过 Together AI 的专用推理层访问该模型。

图片来源：Shutterstock