模型整合了 GPT-5.3 Codex 编码功能
GDPval 基准测试得分达到 83%
GPT-5.4 Pro 定价为每百万令牌 30 美元和 180 美元
OpenAI 推出了 GPT-5.4 作为其最新的前沿 AI 模型。该系统专为专业工作负载和高级企业应用而设计。
该公司正在 ChatGPT、API 和 Codex 上部署该模型。更高性能的 GPT-5.4 Pro 版本也可用于复杂任务。
OpenAI 表示,GPT-5.4 在一个模型中结合了高级推理和编码能力。此次发布反映了该公司对企业和开发者工具的关注。
GPT-5.4 整合了首次在 GPT-5.3 Codex 中引入的编码能力。它提高了软件开发和文档工作流程的性能。该模型支持电子表格、演示文稿和结构化数据任务。它还可以在 ChatGPT 中提前概述其推理计划。
此功能允许用户在响应仍在进行时引导响应。OpenAI 表示,这减少了长推理链中浪费的令牌。该模型支持高达 100 万个令牌的上下文窗口。OpenAI 已移除 API 中此功能的测试版标签。
Codex 也支持扩展的令牌窗口。但是,超过 272,000 个令牌的请求将以双倍使用率计算。
GPT-5.4 引入了原生计算机使用功能。AI 代理可以使用键盘和鼠标输入与操作系统、网站和应用程序进行交互。
开发者可以跨不同软件工具自动化多步骤工作流程。系统还可以通过称为工具搜索的功能动态选择工具。
工具搜索使模型能够定位和使用外部工具,而无需将所有定义加载到内存中。这种方法减少了复杂环境中的令牌使用量。
OpenAI 报告称,GPT-5.4 的响应出错的可能性比 GPT-5.2 低 18%。个别声明为假的可能性低 33%。该公司表示,GPT-5.4 是迄今为止令牌效率最高的推理模型。它使用更少的令牌来完成许多推理任务。
在 GDPval 基准测试中,GPT-5.4 得分为 83%。该基准测试衡量专业知识工作中 44 个职业的性能。
OpenAI 表示,该模型在 83% 的比较中达到或超过行业专业人士的水平。Anthropic 的 Opus 4.6 在同一测试中得分为 79.5%。在 FrontierMath 基准测试中,GPT-5.4 Pro 在高级数学问题上得分为 38%。Thinking 版本得分为 27.1%。
该模型在 SWE-Bench Pro 编码测试中也表现强劲。它的表现优于早期的 OpenAI 模型和几个竞争对手。
在内部测试中,人类评分者在 68% 的时间里更喜欢 GPT-5.4 的演示文稿,而不是 GPT-5.2。该模型在模拟初级银行工作流程的电子表格任务中也获得了 87.5% 的分数。
GPT-5.4 提供 Thinking 和 Pro 版本。GPT-5.4 Thinking 每百万输入令牌收费 2.50 美元,每百万输出令牌收费 15 美元。
GPT-5.4 Pro 每百万输入令牌收费 30 美元,每百万输出令牌收费 180 美元。这是 OpenAI 迄今为止定价最高的模型。Thinking 版本可供 ChatGPT 中的 Plus、Team 和 Pro 用户使用。Pro 版本可供 Pro 和 Enterprise 用户使用。
开发者可以通过 API 在 gpt-5.4 和 gpt-5.3-pro 下访问这些模型。此次推出扩展了 OpenAI 在消费者和企业平台上的 AI 基础设施。
《Sam Altman 的 OpenAI 在 ChatGPT 和 API 上推出 GPT-5.4》一文首次发表于 CoinCentral。


