Gemini vs GPT，谁输谁赢？-虎嗅网

Gemini（英文名双子座）推出，国内媒体标题上各种“王炸”“杀器”“碾压”之外，其实它展示的各种功能，已经很难再激起人们一度熟悉的神奇感和令人惊喜的效果了。

和所有的人一样，我首先关心的是，它超过GPT-4了吗？

昨天看到Gemini发布的消息，第一件事，是把Gemini测试的表格，直接上传到Bard，它果然能对图表进行比较详细准确的解读。如与GPT-4相比，认为明年初推出的Gemini Ultra胜出，已经面世的Gemini Pro逊色，各自在多项指标上的表现如下：

“根据这张图的数据，GPT-4在大多数基准测试中都优于Gemini Pro。例如，在MMLU、GSM8K、MATH、BIG-Bench-Hard、HumanEval、Natural2Code、DROP、HellaSwag和WMT23等基准测试中，GPT-4的准确率都高于Gemini。”

“根据谷歌提供的数据，Gemini Ultra在32个广泛使用的学术基准测试中有30个都表现出了超越当前时代的‘先进结果’，而这些基准测试也是当前LLM领域最常用、最泛用的测试。其中，它以90.0%的得分成为第一个在MMLU（大规模多任务语言理解）上超越人类专家的模型（该测试结合了数学、物理、历史、法律、医学和伦理等57个学科）。Gemini Ultra还在新的MMMU基准测试上表现出了59.4%的领先级性能，该测试涵盖了“需要深思熟虑的”不同领域的多模态任务。

相比之下，GPT-4在MMLU基准测试中的得分为87.29%，在MMMU基准测试中的得分为52.9%。因此，Gemini Ultra在大多数基准测试中都优于GPT-4。”

不过，与许多熟悉大模型测评江湖的专家一样，我也要问一句，这些测评的参考价值有多大？

例如，最受关注的是所谓的Gemini对语言的理解力首次达到（而不是超过）了人类专家的水平，而且在这一项上的学霸级的90分，是尚未发布的Gemini Ultra“碾压”GPT-4的最重要依据。

但是，这个说法很快就引发了一些争议，认为在MMLU这项指标上有点人为拔高。只有CoT（思维链）达到32个例子时，Gemini才能达到90分，超过GPT-4；当例子数量减少到5个，Gemini Ultra得分83.7%，不如GPT-4得分86.4%，高于GPT-3.5的70%。

谷歌在5月份发布Palm-2的时候，也挑出了两个优于GPT-4的指标，但是后来这个大模型怎么样，大家都清楚了。

Gemini发布的喧嚣中，值得注意的是谷歌云发布了TPUv5p，训练大模型每刀效率提升2倍以上。不管Gemini是否碾压了GPT-4，但有一点是肯定的，谷歌拥有比微软更强大的大模型训练和推理平台。谷歌研究负责人Jeff Dean特意从技术报告中拎出了这些亮点：

大家比较公认的是，Gemini赶上了GPT-4，其多模态能力甚至超过了GPT-4V。Meta的PyTorch联合创始人Soumich Chintala认为：

“似乎在基准测试上不让GPT-4。谷歌拥有现有的客户和平台可以开始建立反馈闭环，无需担心模型采纳问题。而且谷歌将使用TPU进行推理，因此不必像OpenAI和微软那样支付给NVIDIA 70%的利润（直到他们的芯片准备好并投入生产）。这是令人兴奋的转变。”

Gemini以后将成为谷歌所有产品与服务的基础模型。从技术报告中可以看出，开发这个大模型，由Google DeepMind牵头，几乎所有的主要研发部门、基础设施部门与数据内容部门都参与了，后面列出了约800名贡献者名单，与目前OpenAI公司的人数相当。

今年3月份GPT-4发布之后，谷歌很快把DeepMInd和Google Brain合并，由哈萨比斯担任CEO，主要使命，就是牵头研发多模态大模型Gemini。

谷歌拥有最大的AI人才库，包括Transformer论文在内的最重要研究成果，几乎都出自谷歌。谷歌还拥有最强的AI基础设施、最大的数据库、最强的搜索以及最丰富的应用场景。哈萨比斯的愿景也是实现通用人工智能。谷歌没有任何理由一直跟在OpenAI的后面追赶。

许多人认为谷歌动作迟缓，是因为大公司病。这肯定是一个原因，也导致谷歌今年以来的人才流失。

另外还有一个重要原因，作为一家已经拥有AI全栈技术与顶级应用的科技巨头，谷歌的行为肯定与初创公司OpenAI有所不同。

谷歌最重视的仍然是搜索。它并不想用语言大模型来颠覆搜索，而是用它来加强搜索，谷歌称之为生成式搜索。它也需要考虑生成式搜索的成本。大模型每次query的成本已经大幅度下降，但仍然比搜索的每次query昂贵。谷歌必须要考虑的，是每年为全世界数十亿用户提供的数万亿次免费搜索的成本。

所以对于谷歌来说，它的AI计算基础设施非常重要。它希望能在训练、推理、能耗等方面的成本降下来，既能支持生成式搜索，同时又加持其他的业务，包括硬件业务。

谷歌这次推出用于Pixel手机的两款Nano模型，会进一步推动生成式人工智能向设备端部署。同一天，苹果悄悄公布了基于M芯片的大模型训练和部署框架MLX，Mac笔记本电脑将会更加AI化。

谷歌推出Gemini已经晚了吗？似乎并不晚。正如哈萨比斯所说，发布了Gemini之后，就回到了他当初在DeepMind所熟悉的节奏，会迅速地迭代出更好的产品，从1.0版本到2.0版本。

Gemini推出，给Claude、Inflection，也包括开源的Llama2等大模型带来新的压力，这种压力会传递到国内。目前国内最好的大模型，综合水平基本上处于GPT-3.5这一档。进入2024年，大模型的竞争，可能会形成真正的双子座：GPT-5与Gemini-1。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：周健工