Amazon Web Services 于周五表示,将在一项专注于人工智能推理的多年合作伙伴关系下,把来自 Cerebras 的处理器部署到其数据中心内。这项协议让Amazon Web Services 于周五表示,将在一项专注于人工智能推理的多年合作伙伴关系下,把来自 Cerebras 的处理器部署到其数据中心内。这项协议让

Amazon 利用 Cerebras 晶圆级芯片在 AWS 上加速 AI 模型

2026/03/14 08:32
阅读时长 7 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

Amazon Web Services 于周五表示,将在一项专注于 AI 推理的多年合作伙伴关系下,将 Cerebras 的处理器置于其数据中心内。

这项交易为 Amazon 提供了一种新方式,以加快 AI 模型回答提示、编写代码和处理实时用户请求的速度。AWS 表示将使用 Cerebras 技术,包括 Wafer-Scale Engine,用于推理任务。

两家公司没有透露财务条款。该设置计划用于 AWS 数据中心内的 Amazon Bedrock,将合作伙伴关系直接置于 Amazon 的主要 AI 产品之一内。

AWS 表示,该系统将结合 Amazon Trainium 驱动的服务器、Cerebras CS-3 系统和 Amazon 的 Elastic Fabric Adapter 网络。

今年稍后,AWS 还计划在 Cerebras 硬件上提供领先的开源大型语言模型和 Amazon Nova。AWS 计算和机器学习服务副总裁 David Brown 表示,速度仍然是 AI 推理的主要问题,尤其是对于实时编码帮助和互动应用程序。

David 说:"推理是 AI 为客户提供真正价值的地方,但速度仍然是实时编码辅助和互动应用程序等高要求工作负载的关键瓶颈。"

Amazon 将预填充和解码分配到不同的芯片

AWS 表示,该设计使用一种称为推理分解的方法。这意味着将 AI 推理分为两部分。第一部分是提示处理,也称为预填充。第二部分是输出生成,也称为解码。

AWS 表示,这两项工作的表现截然不同。预填充是并行的,计算量大,需要适度的内存带宽。解码是串行的,计算量较轻,但更依赖于内存带宽。在这些情况下,解码也占用了大部分时间,因为每个输出令牌都必须逐个生成。

这就是为什么 AWS 为每个阶段分配不同的硬件。Trainium 将处理预填充。Cerebras CS-3 将处理解码。

AWS 表示,低延迟、高带宽的 EFA 网络将连接双方,使系统可以作为一项服务运行,同时每个处理器专注于单独的任务。

David 说:"我们与 Cerebras 共同构建的解决了这个问题:通过将推理工作负载分配到 Trainium 和 CS-3 之间,并通过 Amazon 的 Elastic Fabric Adapter 连接它们,每个系统都做它最擅长的事情。结果将是比目前可用的推理速度快一个数量级且性能更高。"

AWS 还表示,该服务将在 AWS Nitro System 上运行,这是其云基础设施的基础层。

这意味着 Cerebras CS-3 系统和 Trainium 驱动的实例预计将以 AWS 客户已经使用的相同安全性、隔离性和一致性运行。

随着 Nvidia 面临另一个威胁,Amazon 更积极地推动 Trainium

这一公告也为 Amazon 提供了另一个机会,以推动 Trainium 对抗来自 Nvidia、AMD 和其他大型芯片公司的芯片。AWS 将 Trainium 描述为其内部 AI 芯片,专为在训练和推理中实现可扩展性能和成本效益而构建。

AWS 表示,两个主要的 AI 实验室已经承诺使用它。Anthropic 已将 AWS 命名为其主要训练合作伙伴,并使用 Trainium 来训练和部署模型。OpenAI 将通过 AWS 基础设施消耗 2 吉瓦的 Trainium 容量,用于 Stateful Runtime Environment、前沿模型和其他高级工作负载。

AWS 补充说,Trainium3 自最近发布以来获得了强劲的采用,各行业的客户承诺了大量容量。

Cerebras 负责处理设置的解码端。AWS 表示,CS-3 专用于解码加速,这为其提供了更多快速输出令牌的空间。Cerebras 表示,CS-3 是世界上最快的 AI 推理系统,提供的内存带宽比最快的 GPU 高数千倍。

该公司表示,推理模型现在占推理工作的更大份额,并在解决问题时为每个请求生成更多令牌。Cerebras 还表示,OpenAI、Cognition、Mistral 等使用其系统来处理高要求的工作负载,尤其是代理编码。

Cerebras Systems 创始人兼首席执行官 Andrew Feldman 说:"与 AWS 合作构建分解推理解决方案将为全球客户群带来最快的推理。"

Andrew 补充说:"全球每家企业都将能够在其现有的 AWS 环境中受益于极快的推理。"

这项交易为 Nvidia 增加了更多压力,Nvidia 于 12 月与 Groq 签署了 200 亿美元的许可协议,并计划下周推出使用 Groq 技术的新推理系统。

如果你正在阅读这篇文章,你已经领先了。通过我们的时事通讯保持领先。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。