1 1 2 2 3 3 4 4 5 5 文集 深度 号外 热文 时间线
谷歌Gemini 2.5 Pro发布即屠榜,代码推理杀疯了
2025-03-26 15:20

谷歌Gemini 2.5 Pro发布即屠榜,代码推理杀疯了

本文来自微信公众号:新智元,作者:Aeneas、好困,原文标题:《谷歌地表最强模型深夜来袭!Gemini 2.5 Pro发布即屠榜,代码推理杀疯了》,题图来自:AI生成

文章摘要
谷歌发布全新AI模型Gemini 2.5 Pro,凭借增强的推理能力和代码处理性能,在LMArena、Vision Arena等多项基准测试中刷新纪录,登顶多个排行榜。该模型支持100万token超长上下文,具备多模态处理能力,可生成复杂代码应用,并即将开放商业使用。

• 🚀【性能突破】登顶LMArena榜首,创历史最大分差超越GPT-4.5/Grok-3达40分

• 💡【推理升级】原生支持100万token上下文,可分析跨模态复杂数据

• 🏆【多域冠军】横扫数学、创意写作、指令遵循等五大领域测试第一

• 👨💻【代码飞跃】SWE-Bench测试达63.8%准确率,生成网页/游戏代码效果惊艳

• 🌐【多模态整合】同时登顶视觉竞技场榜首,支持文本/音频/代码库混合处理

• 💰【商用布局】即将公布定价方案,支持大规模生产环境部署

谷歌的全新模型Gemini 2.5 Pro,果然深夜上线了!


Gemini 2.5 Pro是一个“思考”模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。


谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)



它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。


现在,Gemini 2.5 Pro已经登顶了Arena排行榜的第一位,而且创下了历史最大分数飞跃,比Grok-3/GPT-4.5整整高出了40分!


在代号“nebula”的测试中,它也横扫所有类别夺得第一,并且独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军!



在困难提示词和编程两大领域,它与Grok-3/GPT-4.5拿到了并列冠军,而且在所有其他比拼中都以微弱优势胜出,成功问鼎榜首!



此外,Gemini 2.5 Pro还成功登顶了视觉竞技场(Vision Arena)排行榜榜首!



在网页开发领域,它也同样大放异彩,成功斩获网页开发竞技场(WebDev Arena)亚军宝座!


它是首个实力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的Gemini更是实现了质的飞跃。



这一次,谷歌的模型又展现出巨大的飞跃,OpenAI、Anthropic、DeepSeek等竞争对手,在多久时间内会赶上?



目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中,向Gemini Advanced用户开放,并将很快在Vertex AI上推出。


而它的定价方案,会在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。


网友实测后发现,它果然实力惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。



Gemini 2.5 Pro上线


谷歌表示,在AI领域,系统的“推理”能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及作出明智决策的能力。


长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让AI更智能、更具推理能力的方法。


正是在此基础上,他们在2月推出了第一个思考模型,Gemini 2.0 Flash Thinking。


而今天,通过Gemini 2.5,他们结合了显著增强的基础模型和改进的后期训练,让模型达到了新的性能水平。


推理和代码能力大幅提升


Gemini 2.5 Pro展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。



另外,在各类需要高级推理能力的基准测试中,它都达到了SOTA水平。


无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro就能在GPQA和 AIME 2025等数学和科学基准评测中表现卓越。


而且,在不使用任何外部工具的条件下,它就在挑战人类知识和推理能力的极限前沿“人类最后的考试”中取得了18.8%的准确率,达到业界领先。



在编程能力上,Gemini 2.5相比2.0版本也实现了质的飞跃,而这,仅仅是个开始。


2.5 Pro在创建视觉精美的网页应用和AI智能体代码应用方面都表现卓越,在代码转换和编辑领域中,也同样实力出色。


在智能体代码评估的行业标准测试SWE-Bench Verified上,Gemini 2.5 Pro靠使用自定义智能体配置,就获得了63.8%的优异成绩。


以下这波demo,就展示了Gemini 2.5 Pro如何运用强大推理,仅通过一行提示词,就能生成可执行代码,来创建完整的动画和游戏。


在下面这个demo中,仅仅根据下面这行prompt,它就生成了一段p5js的交互式动画,展示了“宇宙鱼”的场景,并且还显示了鱼们都在想什么。




它还根据以下prompt,生成了一个无限的恐龙跑酷游戏。



按照要求,它生成了像素化的恐龙图像和有趣的游戏背景。



随后,Gemini 2.5 Pro还通过编程实现了分形可视化。


它创建出了精细分形图案的模拟程序,展现出了神奇的曼德布洛特集合。



此外,它还能构建一个交互式气泡图,直观展示出了每个大陆的经济与健康指标随时间的变化。



或者用一段交互式的Javascript动画,展示了旋转六边形内多彩的人工生命群体,并且按要求做成了“超新星星云”的感觉。



另外,它还能开发粒子系统模拟,给出了一个HTML文件,创造出了反射星云的沉浸式交互模拟场景。



原生多模态和超长上下文


Gemini 2.5继承并发扬了Gemini 模型的优势——原生多模态能力和超长上下文长度。


自己发布之初,2.5 Pro就支持100万token的上下文窗口(而200万token也即将推出),性能显著超越了前代模型。


这能让它理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。



最后,既然谷歌已经掏出了地表最强模型,接下来,就让我们坐等OpenAI的反应了。


参考资料:

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

https://deepmind.google/technologies/gemini/pro/

https://x.com/lmarena_ai/status/1904581128746656099


本文来自微信公众号:新智元,作者:Aeneas、好困

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定