1 1 2 2 3 3 4 4 5 5 文集 深度 号外 热文 时间线
以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上
2025-03-26 20:35

以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上

本文来自微信公众号:AI好好用 (ID:almosthuman2017),作者:杨文,题图来自:AI生成

文章摘要
谷歌发布号称“最强模型”Gemini 2.5,擅长推理和编码,但实测中发现其在小学数学题上表现不佳。测试对比5道逻辑题,Gemini 2.5正确率80%,Claude 3.7 Sonnet错两题,OpenAI的o3-mini和GPT-4.5全错。Gemini在多模态测试中表现稳定,但部分模型因思维定势或计算能力不足翻车。

• 🚀模型发布:谷歌Gemini 2.5号称“地表最强”,免费开放使用并集成高级推理能力。

• 🧠逻辑翻车:小学数学题如“竹竿过城门”“鸡蛋问题”让多个大模型全军覆没。

• 🤯全军覆没:OpenAI的o3-mini和GPT-4.5在五题测试中正确率为0。

• 🏆对比测试:Gemini 2.5正确率80%,Claude 3.7 Sonnet错两题,Grok3和DeepSeek R1部分答对。

• 💡思维盲区:多数模型受限于数学公式忽略三维空间,或未抓住“最多”“过河位置”等关键点。

• 👀多模态表现:Gemini、Claude 3.7和Grok3能正确计算杯子高度,其他模型无法识别图像逻辑。

今天凌晨,大洋彼岸可真够热闹的。


OpenAI推出了GPT-4o动嘴生图、P图的功能,而谷歌则直接祭出了号称“最智能的模型”Gemini 2.5。


据谷歌首席科学家Jeff Dean介绍,首个版本Gemini 2.5 Pro Experimental已集成“思考能力”,是迄今为止性能最强大的Gemini模型,尤其擅长高级推理和编码,并在@lmarena_ai排行榜上拿下第一。



到底有多智能?


先来欣赏几个官方给出的demo。


Prompt:p5js to explore a Mandelbrot set。


提示词:用p5.js探索曼德博集合。




Prompt:Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.


提示词:使用Plotly Express创建动画气泡图,展示各大洲经济和健康指标随时间变化。




Prompt:Make me a captivating endless runner gameKey instructions on the screen.p5js scene,no HTML.l like pixelated dinosaurs and interesting backgrounds.


提示词:用p5.js创作一个迷人的无尽跑酷游戏,画面上有关键操作提示。场景像素风,主角是恐龙,背景要有趣。




Prompt:Create a beautiful,interactive p5js demo(no HTML).l like fish and nebulaeShow me what the fish are thinking.


提示词:用p5.js做个好看的互动演示,别用HTML。我喜欢鱼和星云,能不能展现出鱼的想法。




Prompt:p5.js(no HTML)swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.


提示词:用p5.js做一个无HTML的演示:30只彩色的“boids”在一个旋转的六边形内游动,效果像超新星星云。




效果甚是惊艳。


而且谷歌一出手就是免费!


现在普通用户可以在AI Studio中免费使用Gemini 2.5 Pro,Gemini App中的Gemini高级用户也能使用它。


链接直达:http://aistudio.google.com/app/prompts/


一手实测


现在只要发布新模型,言必称自家的最智能、最强大,然后佐以各种跑分结果。


对于普通用户来说,分数、排名都不重要,真正重要的是,它在实际生活中到底好不好使。


既然谷歌称Gemini 2.5是目前地表最强,那我们就来场大乱斗,将它和o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1拉出来同台竞技。


1. 一根10米长的竹竿能通过高4.5米、宽3.8米的城门吗?


如果按照常规的数学逻辑来思考,10米长的竹竿确实无法通过这个尺寸的城门,但是在现实生活中,我们可以让竹竿与地面平行穿过城门。


万万没想到,这么一道简单的竹竿过城门,让这群曾号称最强的大模型全军覆没。


它们不约而同地想到了勾股定理,也把数值算对了,却忽略了现实是个三维空间。



来看看各家大模型的具体表现。


Gemini 2.5:



o3-mini:



GPT-4.5:



Claude 3.7 Sonnet:



Grok3:



DeepSeek R1:



2. 我有6个鸡蛋,碎了2个,煎了2个,吃了2个,最多还剩几个?


这道题目的关键在于理解这些动作之间的关系。


如果把每个动作视为独立事件,那将一个鸡蛋也不剩。


但题目问的是最多还剩几个,这表明可能有重叠的情况,碎的2个鸡蛋正好煎了、吃了,因此在最佳情况下,最多还剩4个鸡蛋。


Gemini 2.5和DeepSeek R1思考一番后,抓住了问题关键,最终回答正确。


o3-mini、GPT-4.5和Claude3.7考虑到了动作重叠的情况,但没有扣住“最多”这个条件,因此回答错误。


最搞笑的就是马斯克家的Grok3,答案对了,但脑回路清奇,它是从完整的鸡蛋里拿出2个煎了、吃了,所以最后还剩2个完整的鸡蛋和2个碎鸡蛋。


来看看各家大模型的具体表现。



Gemini 2.5:



o3-mini:



GPT-4.5:



Claude3.7 Sonnet:



Grok3:



DeepSeek R1:



3. 两个人同时来到了河边,都想过河,但只有一条小船,而且小船只能载一个人。请问:他们能否都过河?


这道题目很容易让人陷入思维定势。


同时来到河边的俩人不一定在河的同一边,只要抓住这个关键点,这道题目就迎刃而解了。


Gemini 2.5、Claude3.7 Sonnet思路清晰,回答正确。


o3-mini和GPT-4.5虽然都说可以同时过河,但给出的解释非常牵强,GPT-4.5甚至说让船空着漂回去,所以不算对。


Grok3和DeepSeek R1则回答错误。



各家大模型具体表现如下。


Gemini 2.5:



o3-mini:



GPT-4.5:



Claude3.7 Sonnet:



Grok3:



DeepSeek R1:



4. 张三去水果店买苹果,苹果进价为20元,卖价是30元。张三付给老板100元,老板没有零钱,就在卖鞋的人那里换了100元零钱,找给张三70元。后来卖鞋的人发现那100元是假币,于是找老板换回了100元。请问水果店老板损失了多少钱?


别看这道题目出现了如此多的数字,故事情节也曲折,但其实水果店老板损失的钱只有两部分——苹果进价20元和找给买家的70元,因此答案是90元。


Gemini 2.5、Claude3.7 Sonnet、Grok3和DeepSeek R1都回答正确。


o3-mini和GPT-4.5纠结了半天,彻底被绕进去了,最终得出错误答案。



Gemini 2.5:



o3-mini:



GPT-4.5:



Claude3.7 Sonnet:



Grok3:



DeepSeek R1:



5.多模态测试题,杯子有多高?


对于这道题,大模型们要先识别图像,然后进行计算。


Gemini 2.5、Claude3.7 Sonnet和Grok3回答正确。


而o3-mini、GPT4.5全程胡说八道。


DeepSeek R1虽然可以上传图片,但它只能识别图片中的文字,无法真正读懂图,因此回答错误。



各家大模型的具体表现如下。


Gemini 2.5:



o3-mini:



GPT-4.5:



Claude 3.7 Sonnet:



Grok3:



DeepSeek R1:




根据以上测试,我们发现Gemini 2.5虽然也会翻车,但正确率达80%,总体来说数学逻辑推理能力还是挺能打的。


Claude 3.7 Sonnet稍逊一筹,5道题目错了俩。


最惨的就是OpenAI家的两大模型o3mini和GPT-4.5,没有一道题目是做对的,正确率为0。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP