2025年11月18日,谷歌推出了Gemini 3 Pro——根据公司首席执行官桑达尔·皮查伊的说法,这是一个旨在"让任何想法变为现实"的人工智能模型。该发布仅在ChatGPT 5.1推出一周后,以及Grok 4.1首次亮相一天后,进一步加剧了[...]领域的竞争。消息Google Gemini 3 Pro:聊天机器人时代的终结,AI代理时代的开始?首先出现在INCRYPTED上。2025年11月18日,谷歌推出了Gemini 3 Pro——根据公司首席执行官桑达尔·皮查伊的说法,这是一个旨在"让任何想法变为现实"的人工智能模型。该发布仅在ChatGPT 5.1推出一周后,以及Grok 4.1首次亮相一天后,进一步加剧了[...]领域的竞争。消息Google Gemini 3 Pro:聊天机器人时代的终结,AI代理时代的开始?首先出现在INCRYPTED上。

Google Gemini 3 Pro:聊天机器人时代的终结,AI代理时代的开始?

本文内容:

• 展示实力

• Gemini 3 Pro 能做什么?

• 开发者的反重力工具

2025年11月18日,谷歌推出了Gemini 3 Pro——根据公司首席执行官桑达尔·皮查伊的说法,这是一个旨在"让任何想法变为现实"的人工智能模型。

该产品发布仅在ChatGPT 5.1推出一周后,Grok 4.1首次亮相一天后,进一步加剧了市场竞争。

这款新模型不仅仅被定位为聊天机器人,而是作为一个能够处理任何复杂任务的通用平台。Gemini的第三个版本具备了代理级别的能力、增强的推理能力、扩展的上下文理解,以及将用户文件(图像、视频、音频)转换为全新内容的能力。

Incrypted编辑团队深入研究了Gemini 3 Pro的功能——以及它在哪些领域超越了竞争对手。

Gemini 3 Pro被谷歌称为其最"合理"的模型,该公司公开将其解决方案定位为多方面的行业领导者。独立评估也证实了这一点。

根据人工分析(Artificial Analysis)的数据,该模型已成为其综合指数的新领导者。

来自人工分析的AI指数。数据来源:人工分析。

如果人工分析的测试可信,谷歌在智能任务领域——推理、理解复杂结构、准确性和多模态方面已经领先于竞争对手。

深度分析中的表现尤其值得关注。在"人类最后的考试"中,该测试评估模型在没有工具辅助的情况下解决博士级问题的能力,Gemini 3 Pro得分超过37%。

这比之前的记录高出十多个百分点。在ARC-AGI-2测试中,这是一个最具挑战性的基准测试,评估推导规则并将其应用于新情况的能力,该模型的得分也超过了大多数竞争对手。

来自人工分析的十项专业测试结果。数据来源:人工分析。

谷歌强调,在数学测试中也表现出高性能。在MathArena Apex测试中,传统上极端复杂的问题会使模型失去平衡,Gemini 3 Pro获得了23.4%的成绩。此前,这一数字对其他系统来说是无法达到的,最好的结果也不超过5.2%。

MathArena Apex测试结果。数据来源:MathArena。

在多模态测试中,更新后的Gemini也占据了首位。专家直接将此归因于模型可能的大规模。

这一假设可以解释谷歌AI在涉及视觉分析和空间理解的任务中超越其他公司产品的能力。

值得单独注意的是与Claude和ChatGPT的比较。在SWE-Bench Verified基准测试中,该测试评估自主处理GitHub任务的能力,新模型仅落后Sonnet 4.5一个百分点。在其他指标中,Gemini通常领先。

不同AI模型的比较测试结果。数据来源:谷歌。

另一个重要的证据是模型的速度。人工分析指出,Gemini 3 Pro每秒生成约128个标记。这比GPT-5.1、Kimi K2 Thinking和Grok 4的性能更快。

这很可能是由于谷歌自己基于张量处理单元(TPU)处理器的硬件平台。

因此,在许多参数上,该模型自信地与现有旗舰产品竞争,并在许多情况下超越它们。同时,该产品在某些测试中落后于竞争对手,但通常只是略微落后。

从技术角度讲,Gemini 3 Pro是一个具有更多上下文和扩展可控参数集的多模态模型。根据谷歌的文档,它接受文本、代码、图像、音频、视频和PDF作为输入。

最大输入大小声称为1,048,576个标记,输出最多65,536个标记。对于实际应用,这意味着该模型可以一次分析大量数据,包括长文档、文章集、大型视频讲座或整个代码库。

Gemini 3 Pro技术数据。数据来源:谷歌。

文档单独说明,该模型每次查询支持多达900张图像,多达900个文档,最多10个视频和持续数小时的音频。

这使得构建复杂查询成为可能,其中文本描述与视觉材料和代码相结合。

随着Gemini 3的推出,引入了许多新设置。首先是推理级别参数。取代之前的"思考预算",使用了一个明确的thinking_level开关,可以设置为低或高。

谷歌解释这是一种调整内部推理量的方法。该功能在响应质量、逻辑复杂性、延迟和成本之间取得平衡。

其次,媒体内容的分辨率控制已经出现。media_resolution参数(低、中或高)允许控制图像和视频的视觉分析深度和标记消耗。

Gemini 3 Pro新功能描述。数据来源:谷歌。

在产品层面,谷歌正试图将这些功能转变为新形式的界面。皮查伊这样描述Gemini体验:

此外,谷歌高管写道,Gemini 3"为搜索和新的生成界面带来强大的推理能力"。具体来说,它引入了视觉布局模式。

这意味着答案可以看起来像一个带有照片、模块和用户控制项目的"杂志"展开页。作为例子,他引用了规划罗马三日游的请求。

系统通过生成带有视觉块的行程安排作出响应,并能够根据用户的偏好进行定制。

发展的一个重要领域是基于代理的能力。谷歌指出,自Gemini 2以来,公司一直积极发展"代理时代",Gemini 3在长时间规划行动的能力方面显示出进步。

他们的材料特别提到在Vending-Bench 2基准测试中的领导地位,该测试模拟了一年内自动售货机的管理。根据谷歌的描述,AI保持行动序列和工具使用处于稳定状态,不会"偏离"设定的目标。

Vending-Bench 2测试。数据来源:谷歌。

公司将这些想法在日常任务中的实际应用归功于Gemini Agent。一位谷歌高管解释说,这一功能利用先进的推理能力将复杂任务分解为多个步骤。

完成这些步骤后,模型会根据获得的结果向用户建议进一步的行动。

在工程方面,新的谷歌Antigravity开发工具已成为生态系统的重要元素。官方公告将其描述为"基于代理的开发平台"。

该解决方案是一个集成环境,其中基于Gemini 3的代理可以访问编辑器、终端和浏览器。它们可以规划和执行复杂的软件任务,并将其步骤作为易于检查的单独"工件"呈现给用户。

ArsTechnica出版物强调,Antigravity不仅可以使用基于Gemini的代理,还可以使用Claude Sonnet 4.5和基于GPT的解决方案。该产品还提供客户端和服务器端命令行工具。

这些案例表明,该模型可以处理与对象空间化和在虚拟和增强现实环境中工作相关的任务。

总之,在功能层面,Gemini 3 Pro看起来像一个多功能工具,具有出色的上下文理解、引导式深度推理,以及与开发工具和代理的紧密结合。

市场机遇
Propy 图标
Propy实时价格 (PRO)
$0.3791
$0.3791$0.3791
-1.86%
USD
Propy (PRO) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。