以一敌五、屠榜登顶的谷歌Gemini 2.5，居然栽在小学数学题上-虎嗅网

今天凌晨，大洋彼岸可真够热闹的。

OpenAI推出了GPT-4o动嘴生图、P图的功能，而谷歌则直接祭出了号称“最智能的模型”Gemini 2.5。

据谷歌首席科学家Jeff Dean介绍，首个版本Gemini 2.5 Pro Experimental已集成“思考能力”，是迄今为止性能最强大的Gemini模型，尤其擅长高级推理和编码，并在@lmarena_ai排行榜上拿下第一。

到底有多智能？

先来欣赏几个官方给出的demo。

Prompt：p5js to explore a Mandelbrot set。

提示词：用p5.js探索曼德博集合。

Prompt：Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.

提示词：使用Plotly Express创建动画气泡图，展示各大洲经济和健康指标随时间变化。

Prompt:Make me a captivating endless runner gameKey instructions on the screen.p5js scene，no HTML.l like pixelated dinosaurs and interesting backgrounds.

提示词：用p5.js创作一个迷人的无尽跑酷游戏，画面上有关键操作提示。场景像素风，主角是恐龙，背景要有趣。

Prompt:Create a beautiful，interactive p5js demo(no HTML).l like fish and nebulaeShow me what the fish are thinking.

提示词：用p5.js做个好看的互动演示，别用HTML。我喜欢鱼和星云，能不能展现出鱼的想法。

Prompt:p5.js(no HTML)swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.

提示词：用p5.js做一个无HTML的演示：30只彩色的“boids”在一个旋转的六边形内游动，效果像超新星星云。

效果甚是惊艳。

而且谷歌一出手就是免费！

现在普通用户可以在AI Studio中免费使用Gemini 2.5 Pro，Gemini App中的Gemini高级用户也能使用它。

链接直达：http://aistudio.google.com/app/prompts/

一手实测

现在只要发布新模型，言必称自家的最智能、最强大，然后佐以各种跑分结果。

对于普通用户来说，分数、排名都不重要，真正重要的是，它在实际生活中到底好不好使。

既然谷歌称Gemini 2.5是目前地表最强，那我们就来场大乱斗，将它和o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1拉出来同台竞技。

1. 一根10米长的竹竿能通过高4.5米、宽3.8米的城门吗？

如果按照常规的数学逻辑来思考，10米长的竹竿确实无法通过这个尺寸的城门，但是在现实生活中，我们可以让竹竿与地面平行穿过城门。

万万没想到，这么一道简单的竹竿过城门，让这群曾号称最强的大模型全军覆没。

它们不约而同地想到了勾股定理，也把数值算对了，却忽略了现实是个三维空间。

来看看各家大模型的具体表现。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude 3.7 Sonnet：

Grok3：

DeepSeek R1：

2. 我有6个鸡蛋，碎了2个，煎了2个，吃了2个，最多还剩几个？

这道题目的关键在于理解这些动作之间的关系。

如果把每个动作视为独立事件，那将一个鸡蛋也不剩。

但题目问的是最多还剩几个，这表明可能有重叠的情况，碎的2个鸡蛋正好煎了、吃了，因此在最佳情况下，最多还剩4个鸡蛋。

Gemini 2.5和DeepSeek R1思考一番后，抓住了问题关键，最终回答正确。

o3-mini、GPT-4.5和Claude3.7考虑到了动作重叠的情况，但没有扣住“最多”这个条件，因此回答错误。

最搞笑的就是马斯克家的Grok3，答案对了，但脑回路清奇，它是从完整的鸡蛋里拿出2个煎了、吃了，所以最后还剩2个完整的鸡蛋和2个碎鸡蛋。

来看看各家大模型的具体表现。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude3.7 Sonnet：

Grok3：

DeepSeek R1：

3. 两个人同时来到了河边，都想过河，但只有一条小船，而且小船只能载一个人。请问：他们能否都过河？

这道题目很容易让人陷入思维定势。

同时来到河边的俩人不一定在河的同一边，只要抓住这个关键点，这道题目就迎刃而解了。

Gemini 2.5、Claude3.7 Sonnet思路清晰，回答正确。

o3-mini和GPT-4.5虽然都说可以同时过河，但给出的解释非常牵强，GPT-4.5甚至说让船空着漂回去，所以不算对。

Grok3和DeepSeek R1则回答错误。

各家大模型具体表现如下。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude3.7 Sonnet：

Grok3：

DeepSeek R1：

4. 张三去水果店买苹果，苹果进价为20元，卖价是30元。张三付给老板100元，老板没有零钱，就在卖鞋的人那里换了100元零钱，找给张三70元。后来卖鞋的人发现那100元是假币，于是找老板换回了100元。请问水果店老板损失了多少钱？

别看这道题目出现了如此多的数字，故事情节也曲折，但其实水果店老板损失的钱只有两部分——苹果进价20元和找给买家的70元，因此答案是90元。

Gemini 2.5、Claude3.7 Sonnet、Grok3和DeepSeek R1都回答正确。

o3-mini和GPT-4.5纠结了半天，彻底被绕进去了，最终得出错误答案。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude3.7 Sonnet：

Grok3：

DeepSeek R1：

5.多模态测试题，杯子有多高？

对于这道题，大模型们要先识别图像，然后进行计算。

Gemini 2.5、Claude3.7 Sonnet和Grok3回答正确。

而o3-mini、GPT4.5全程胡说八道。

DeepSeek R1虽然可以上传图片，但它只能识别图片中的文字，无法真正读懂图，因此回答错误。

各家大模型的具体表现如下。

Gemini 2.5：

o3-mini：

GPT-4.5：

Claude 3.7 Sonnet：

Grok3：

DeepSeek R1：

根据以上测试，我们发现Gemini 2.5虽然也会翻车，但正确率达80%，总体来说数学逻辑推理能力还是挺能打的。

Claude 3.7 Sonnet稍逊一筹，5道题目错了俩。

最惨的就是OpenAI家的两大模型o3mini和GPT-4.5，没有一道题目是做对的，正确率为0。