Gemini 3 Pro被谷歌称为其最"合理"的模型,该公司公开将其解决方案定位为多方面的行业领导者。独立评估也证实了这一点。
根据人工分析(Artificial Analysis)的数据,该模型已成为其综合指数的新领导者。
来自人工分析的AI指数。数据来源:人工分析。
如果人工分析的测试可信,谷歌在智能任务领域——推理、理解复杂结构、准确性和多模态方面已经领先于竞争对手。
深度分析中的表现尤其值得关注。在"人类最后的考试"中,该测试评估模型在没有工具辅助的情况下解决博士级问题的能力,Gemini 3 Pro得分超过37%。
这比之前的记录高出十多个百分点。在ARC-AGI-2测试中,这是一个最具挑战性的基准测试,评估推导规则并将其应用于新情况的能力,该模型的得分也超过了大多数竞争对手。
来自人工分析的十项专业测试结果。数据来源:人工分析。
谷歌强调,在数学测试中也表现出高性能。在MathArena Apex测试中,传统上极端复杂的问题会使模型失去平衡,Gemini 3 Pro获得了23.4%的成绩。此前,这一数字对其他系统来说是无法达到的,最好的结果也不超过5.2%。
MathArena Apex测试结果。数据来源:MathArena。
在多模态测试中,更新后的Gemini也占据了首位。专家直接将此归因于模型可能的大规模。
这一假设可以解释谷歌AI在涉及视觉分析和空间理解的任务中超越其他公司产品的能力。
值得单独注意的是与Claude和ChatGPT的比较。在SWE-Bench Verified基准测试中,该测试评估自主处理GitHub任务的能力,新模型仅落后Sonnet 4.5一个百分点。在其他指标中,Gemini通常领先。
不同AI模型的比较测试结果。数据来源:谷歌。
另一个重要的证据是模型的速度。人工分析指出,Gemini 3 Pro每秒生成约128个标记。这比GPT-5.1、Kimi K2 Thinking和Grok 4的性能更快。
这很可能是由于谷歌自己基于张量处理单元(TPU)处理器的硬件平台。
因此,在许多参数上,该模型自信地与现有旗舰产品竞争,并在许多情况下超越它们。同时,该产品在某些测试中落后于竞争对手,但通常只是略微落后。

Gemini 3 Pro技术数据。数据来源:谷歌。
Gemini 3 Pro新功能描述。数据来源:谷歌。
Vending-Bench 2测试。数据来源:谷歌。


