本文来自微信公众号:AI好好用 (ID:almosthuman2017),作者:杨文,题图来自:AI生成
本文来自微信公众号:AI好好用 (ID:almosthuman2017),作者:杨文,题图来自:AI生成
今天凌晨,大洋彼岸可真够热闹的。
OpenAI推出了GPT-4o动嘴生图、P图的功能,而谷歌则直接祭出了号称“最智能的模型”Gemini 2.5。
据谷歌首席科学家Jeff Dean介绍,首个版本Gemini 2.5 Pro Experimental已集成“思考能力”,是迄今为止性能最强大的Gemini模型,尤其擅长高级推理和编码,并在@lmarena_ai排行榜上拿下第一。
到底有多智能?
先来欣赏几个官方给出的demo。
Prompt:p5js to explore a Mandelbrot set。
提示词:用p5.js探索曼德博集合。
Prompt:Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.
提示词:使用Plotly Express创建动画气泡图,展示各大洲经济和健康指标随时间变化。
Prompt:Make me a captivating endless runner gameKey instructions on the screen.p5js scene,no HTML.l like pixelated dinosaurs and interesting backgrounds.
提示词:用p5.js创作一个迷人的无尽跑酷游戏,画面上有关键操作提示。场景像素风,主角是恐龙,背景要有趣。
Prompt:Create a beautiful,interactive p5js demo(no HTML).l like fish and nebulaeShow me what the fish are thinking.
提示词:用p5.js做个好看的互动演示,别用HTML。我喜欢鱼和星云,能不能展现出鱼的想法。
Prompt:p5.js(no HTML)swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.
提示词:用p5.js做一个无HTML的演示:30只彩色的“boids”在一个旋转的六边形内游动,效果像超新星星云。
效果甚是惊艳。
而且谷歌一出手就是免费!
现在普通用户可以在AI Studio中免费使用Gemini 2.5 Pro,Gemini App中的Gemini高级用户也能使用它。
链接直达:http://aistudio.google.com/app/prompts/
一手实测
现在只要发布新模型,言必称自家的最智能、最强大,然后佐以各种跑分结果。
对于普通用户来说,分数、排名都不重要,真正重要的是,它在实际生活中到底好不好使。
既然谷歌称Gemini 2.5是目前地表最强,那我们就来场大乱斗,将它和o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1拉出来同台竞技。
1. 一根10米长的竹竿能通过高4.5米、宽3.8米的城门吗?
如果按照常规的数学逻辑来思考,10米长的竹竿确实无法通过这个尺寸的城门,但是在现实生活中,我们可以让竹竿与地面平行穿过城门。
万万没想到,这么一道简单的竹竿过城门,让这群曾号称最强的大模型全军覆没。
它们不约而同地想到了勾股定理,也把数值算对了,却忽略了现实是个三维空间。
来看看各家大模型的具体表现。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude 3.7 Sonnet:
Grok3:
DeepSeek R1:
2. 我有6个鸡蛋,碎了2个,煎了2个,吃了2个,最多还剩几个?
这道题目的关键在于理解这些动作之间的关系。
如果把每个动作视为独立事件,那将一个鸡蛋也不剩。
但题目问的是最多还剩几个,这表明可能有重叠的情况,碎的2个鸡蛋正好煎了、吃了,因此在最佳情况下,最多还剩4个鸡蛋。
Gemini 2.5和DeepSeek R1思考一番后,抓住了问题关键,最终回答正确。
o3-mini、GPT-4.5和Claude3.7考虑到了动作重叠的情况,但没有扣住“最多”这个条件,因此回答错误。
最搞笑的就是马斯克家的Grok3,答案对了,但脑回路清奇,它是从完整的鸡蛋里拿出2个煎了、吃了,所以最后还剩2个完整的鸡蛋和2个碎鸡蛋。
来看看各家大模型的具体表现。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude3.7 Sonnet:
Grok3:
DeepSeek R1:
3. 两个人同时来到了河边,都想过河,但只有一条小船,而且小船只能载一个人。请问:他们能否都过河?
这道题目很容易让人陷入思维定势。
同时来到河边的俩人不一定在河的同一边,只要抓住这个关键点,这道题目就迎刃而解了。
Gemini 2.5、Claude3.7 Sonnet思路清晰,回答正确。
o3-mini和GPT-4.5虽然都说可以同时过河,但给出的解释非常牵强,GPT-4.5甚至说让船空着漂回去,所以不算对。
Grok3和DeepSeek R1则回答错误。
各家大模型具体表现如下。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude3.7 Sonnet:
Grok3:
DeepSeek R1:
4. 张三去水果店买苹果,苹果进价为20元,卖价是30元。张三付给老板100元,老板没有零钱,就在卖鞋的人那里换了100元零钱,找给张三70元。后来卖鞋的人发现那100元是假币,于是找老板换回了100元。请问水果店老板损失了多少钱?
别看这道题目出现了如此多的数字,故事情节也曲折,但其实水果店老板损失的钱只有两部分——苹果进价20元和找给买家的70元,因此答案是90元。
Gemini 2.5、Claude3.7 Sonnet、Grok3和DeepSeek R1都回答正确。
o3-mini和GPT-4.5纠结了半天,彻底被绕进去了,最终得出错误答案。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude3.7 Sonnet:
Grok3:
DeepSeek R1:
5.多模态测试题,杯子有多高?
对于这道题,大模型们要先识别图像,然后进行计算。
Gemini 2.5、Claude3.7 Sonnet和Grok3回答正确。
而o3-mini、GPT4.5全程胡说八道。
DeepSeek R1虽然可以上传图片,但它只能识别图片中的文字,无法真正读懂图,因此回答错误。
各家大模型的具体表现如下。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude 3.7 Sonnet:
Grok3:
DeepSeek R1:
根据以上测试,我们发现Gemini 2.5虽然也会翻车,但正确率达80%,总体来说数学逻辑推理能力还是挺能打的。
Claude 3.7 Sonnet稍逊一筹,5道题目错了俩。
最惨的就是OpenAI家的两大模型o3mini和GPT-4.5,没有一道题目是做对的,正确率为0。