OpenAI最强模型o1，仍分不出“9.11和9.8哪个大”-虎嗅网

没有任何预警，OpenAI突然发布了OpenAI o1系列模型。按照官方技术博客说法，o1在推理能力上代表了人工智能最强的水平。

OpenAI CEO Sam Altman表示：“OpenAI o1是一个新范式的开始：可以进行通用复杂推理的AI。”

在复杂推理任务上，这款新模型代表了AI能力的新水平。基于此，OpenAI选择将此系列重新命名为OpenAI o1，并从头开始计数。

不知道这是否意味着，GPT-5这个命名也不会出现了。

简单总结新模型的特点：

OpenAI o1：性能强大，适用于处理各个领域推理的复杂任务。

OpenAI o1 mini：经济高效，适用于需要推理但不需要广泛世界知识的应用场景。

现在，该模型已经全量推送，你可以通过ChatGPT网页端或者API进行访问。

其中o1-preview还是预览版，OpenAI还会继续更新开发下一版本。目前使用有一定次数限制，o1-preview每周30条消息，o1-mini每周50条。

和传闻中的“草莓”一样，新模型能够推理复杂任务，并解决科学、编码和数学领域中比以往更为困难的问题。官方表示，如果你需要解决科学、编码、数学等领域的复杂问题，那么这些增强的推理功能将尤为有用。

例如，医疗研究人员可以用它注释细胞测序数据，物理学家可以用它生成复杂的量子光学公式，开发人员可以用它构建并执行多步骤的工作流程。

此外，OpenAI o1系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案，OpenAI还发布了一款更快、更便宜的推理模型OpenAI o1-mini，尤其擅长编码。

作为较小版本，o1-mini的成本比o1-preview低80%，是一个功能强大且高效的模型，适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中，OpenAI会训练这些模型在回答问题之前深入思考。o1在回答问题前会产生一个内部的思维链，这使得它能够进行更深入的推理。

通过训练，OpenAI o1模型能够学会完善自己的思维方式，并且随着更多的强化学习（训练时间计算）和更多的思考时间（测试时间计算）而持续提高。

OpenAI研究员@yubai01也点出了01的训练路线：

我们使用RL来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分，而且要走很长一段路！

据介绍，在测试中，这款模型在物理、化学和生物等任务中表现得如同博士生，尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o只解决了13%的问题，而推理模型得分高达83%。在Codeforces编程竞赛中，它的表现进入了前89%的队列。

不过，和传闻的爆料一样，作为一个早期版本，该模型还不具备一些ChatGPT的常用功能，比如网页浏览和上传文件或图像等多模态能力。

相比之下，GPT-4o反而会更加胜任许多常见的应用场景。

为了确保新模型的安全，OpenAI提出了一种新的安全训练方法。

在最严苛的“越狱”测试中，GPT-4o得分为22（满分100），而o1-preview模型得分为84，在安全性方面堪称遥遥领先。

从下周开始，ChatGPT Enterprise和Edu用户也可以访问这两款模型。符合条件的开发人员现在可以通过API使用这两款模型，每分钟速率也有所限制。

在这里划个重点，OpenAI表示，未来将向所有ChatGPT免费用户提供o1-mini的访问权限。不过，大概率也会在次数上有所限制。

关于新模型o1更多细节，我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题，欢迎在留言区告诉我们。

推理能力遥遥领先，但仍分不出“9.11和9.8哪个大”

官方也放出了更多OpenAI o1的更多演示视频。

比如使用OpenAI o1来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓，并在3秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同，这类游戏的逻辑相对复杂，更考验OpenAI o1的逻辑推理能力。

编译视频来自@dotey，下同

又或者，OpenAI o1已经开始能通过推理，解决一些简单的物理问题。

演示列举了一个例子，一颗小草莓被放在一个普通的杯子里，杯子倒扣在桌子上，然后杯子被拿起，询问草莓会在哪里，并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中，OpenAI o1还能成为医生的得力助手，比如帮助医生整理总结的病例信息，甚至辅助诊断一些疑难杂症。

热衷于将AI与科学相结合的量子物理学家马里奥·克莱恩（Mario Krenn）也向OpenAI的o1模型提出一个关于特定的量子算符应用的问题，结果，OpenAI o1也轻松拿捏。

“Strawberry”里有多少个“r”，GPT-4o会回答错误，但却难不倒OpenAI o1，这一点值得好评。

不过，经过实测，OpenAI o1依然无法解决“9.11和9.8哪个大”的经典难题，严重扣分。

对于OpenAI o1的到来，英伟达具身智能负责人Jim Fan表示：

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿（强化学习教父）在《苦涩的教训》中所说，只有两种技术可以无限制地与计算规模化：

学习和搜索。是时候将重点转向后者了。

在他看来，大模型中的很多参数是用来记忆事实的，这的确有助于在问答的基准测试“刷分”，但如果将逻辑推理能力与知识（事实记忆）分开，使用一个小的“推理核心”来调用工具，如浏览器和代码验证器，这样可以减少预训练的计算量。

Jim Fan也点出了OpenAI o1最强大的优势所在，即01模型可以轻松成为数据飞轮的一部分。

简单来说，如果模型给出了正确的答案，那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本，并且随着生成的训练数据越来越精细，模型的表现也会不断改善。好一个通过自己博弈，实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题，比如回复的时间长了不少，虽然花了更长时间思考在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测，这次的o1有可能是GPT-4o在进行一些微调/对齐后的agent，整体远低于预期，

Sam Altman也承认o1仍然有缺陷，存在局限，在第一次使用时更令人印象深刻，而在你花更多时间使用后就没那么好了。

尽管如此，OpenAI o1模型在整体的表现上还是可圈可点。

现在，OpenAI o1模型的发布堪称下半年AI模型大战的导火索，如无意外，接下来，其他AI公司也不会藏着掖着了。

没错，我点的就是Anthropic、Meta AI、xAI等老对手、以及一些潜在深处的AI黑马。

并且，从GPT-4发布至今，OpenAI新模型发布的最深层意义并不在于性能的强大，而是提供一种技术路线的标杆，带领人们往未知的深水区迈进。

GPT-4如此，OpenAI o1也希望如此。