Open AI新模型o1问世，能像人类一样思考？-虎嗅网

凌晨1点，我还在追剧。

这时，朋友发来一条消息说：Open AI发布了新模型，你在电脑上试试看能用吗？哎，大哥，都要睡觉了，这要强制开机，让我起来加班码字啊。‍‍

带着好奇，打开PC端ChatGPT一看，果然，多出两个模型，分别是ChatGPT o1-mini和o1-preview。

这是什么东东？怎么叫这个名字？这个模型有什么特点？怎么还有两个版本呢？价位如何？难道是此前被传的“草莓”做出来了？

带着疑惑，熬夜看完官方文档，把内容总结分享给你。

一

为什么叫o1呢？官方说：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this， we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自带浏览器的翻译功能，翻译出来就是：

这个模型在复杂推理任务上是一个重大的进步，代表了人工智能能力的一个新水平；因此，我们决定重新开始编号，把这一系列模型命名为OpenAI o1。

袄，原来因为这个模型非常厉害，能做很多复杂的事情，OpenAI 觉得这是一个新的起点，所以把编号重新设为1，开始一个新的系列。

那么，它为什么会有两个版本呢？官方说：

o1 mini版是个简化的版本。它在速度、体积和成本方面都做了优化。

这个版本在处理数学、编程推理任务时表现不错，特别适合需要快速处理问题的场合；因为它体积小，成本也低，所以，如果你想快速得到答案，那么o1 mini版可能更适合你。

相对o1 preview版，是完整版本。

比较擅长解决复杂的问题，比如，无论是科学问题、数学题还是编程，它都能处理得非常好；当然，如果你遇到的问题要广泛的知识或者深刻的理解，那么这个版本更适合你，因为它的推理能力非常强大。

我不信，于是，让国产大模型Kimi Chat给我想了一个逻辑数学逻辑题，如下：

假设我有一个农场，里面有鸡和兔子。有一天，我数了数农场里动物的头和脚，发现总共有35个头和94只脚。请问，农场里各有多少只鸡和兔子？

preview版的确很强。除了告诉我有23只鸡，和12只兔子外，还给出了步骤，整个下来，也就不到2秒。当然，这种测试用来对付Chat肯定是无压力的，如果你有时间，也可以带入工作中的问题，自己体验下。

总的来说，两个版本的主要区别是它们处理任务的能力、速度和成本；o1 mini版在速度、成本上有优势；preview版更适合推理。

不过，实际体验下来，没觉得有什么差异，也许我本身要它做的事情，比较简单。

体验完后，仔细一想，这和GPT-4o、GPT-4omini有啥区别呢？非要搞出四个模型吗？加上GPT-4，我电脑上已经有五个模型了。

查了下官方文档，有一篇文章叫《用法学硕士学习推理》（Learning to Reason with LLMs）详细介绍了一切。

他们是这么说的：

在对OpenAI的两个AI模型——o1-preview和GPT-4o的实际使用偏好测试中，人类评估者在不知情的情况下，比较了两个模型对复杂问题的回答。

结果显示，在需要大量推理的任务上，比如数据分析、编程和数学问题，大家更喜欢o1-preview。因为o1-preview经过特殊的强化学习训练，所以，在解决这类问题时，推理能力更强，更高效。

但是，在自然语言处理任务上，o1-preview的表现不如GPT-4o。这是因为它的训练重点在推理和解决问题的策略上，而不是在语言的流畅度或文本生成的多样性上。

这说明，虽然o1-preview在某些领域很出色，但它并不适合所有类型的任务，尤其是那些专注于自然语言处理的场景。

原来如此。

我又看了看o1-preview和o1 mini版适合哪些人。官方说，如果你在处理科学、编码、数学等领域的复杂问题，这些增强的推理能力可能特别有用。

比如：

医疗研究人员可以用o1来标注细胞测序数据；物理学家可以生成量子光学所需的复杂数学公式；各个领域的开发者都可以用o1来构建和执行多步的工作流程。

所以，如果你做科学、敲代码、编程、数学方面的工作，用它再好不过了。

二

那么，o1-preview和o1 mini到底做了哪些测试呢？

首先，为了显示o1模型在推理方面比GPT-4o有多大改进，他们在不同的人体检查和机器学习基准上测试了它。

比如：

在2024年的AIME数学考试中，GPT-4o平均只解决了12%的题目；而o1模型单次测试的平均解题率达到了74%。如果算上64次测试的平均得分，能达到83%；重新从1000个样本中排名，平均得分甚至可以达到93%。

这个成绩不仅让它进入了全美前500名，还超过了参加美国数学奥林匹克的分数线。

他们还用一个叫做GPQA钻石的难题来测试o1。这个测试涉及化学、物理和生物学的专业知识。

他们请了一些拥有博士学位的专家来回答这些问题，结果发现，o1模型的表现超过了人类专家，成为第一个在这个测试中取得这样成绩的模型。

这并不意味着o1在所有方面都比博士更厉害，而是说明它在解决某些专业问题上更为熟练。

当然，在其他一些机器学习的测试中，他们也做了大量测试；它在MMMU的视觉感知测试中得了78.2分，成为第一个能和人类专家竞争的模型；而且，在57个MMLU子测试中的54个项目上，它的表现都优于GPT-4o。

我好奇地搜索了一下，什么是 MMLU？简单讲，MMLU 像一场大型的综合考试，参加考试的不是人类，而是人工智能模型。

总之，这些测试最终结论是：

OpenAI的o1模型在全球编程比赛Codeforces中排名第89位，在美国数学奥林匹克（AIME）的资格赛中，进入了全美前500名。

在物理、生物学和化学问题的测试中，它的表现甚至超过了博士水平。

因此，o1-preview和o1 mini在解决高难度的推理和专业问题上表现更出色；而GPT-4o更适合处理日常的任务。

三

所以，这么强的推理能力怎么实现的？关键有四个方面：

首先，o1模型用了一种“自我对弈强化学习”（Self-play RL）的方法；这是一种通过模拟环境和自我对抗来提升模型性能的技术。

这种方法中，模型在没有外部指导，通过不断尝试和错误来学习策略和优化决策。

想象一下：

它就像在和自己下棋，一边玩一边学；过程中，不用别人教，自己试试、出错、再试，慢慢就学会了怎样做决策和解决问题。

其次，o1还模仿了人类的“慢思考”（Slow Thinking）；这种思考要时间、努力和逻辑三者结合，就像我们在考试时仔细思考一个难题一样。

通过深思熟虑的方式，o1先分析问题，然后把它拆开，再推理，再解决；这让它在科学、编程或数学上更精准，更出色。

当然，这一步离不开思维链。

思维链的推理，还用一种独特的方法来监控模型。如果这些思维链是可读的，研发人员就能“读懂”模型的思考过程。

这对于监测模型是否能操纵用户行为非常有帮助，但是，为了让模型能自由地表达思考，他们不在模型中加入任何与政策、用户偏好相关的硬性规定。

因此，这个模型整合了安全政策和人类价值观，通过在模型的答案中重现思维链中的有用想法，让用户间接了解模型的思考过程。

还有一点，思维链加入了鲁棒性（Robustness）测试。所谓鲁棒性指一个系统、模型或者设备在面对各种意外情况、干扰或者变化时，仍然能够正常工作，不容易出问题。

比如：

一辆汽车，无论在高温、低温、下雨还是颠簸的路面上，都能正常行驶，这说明它的鲁棒性很好；在AI领域，鲁棒性指软件、模型在面对不同的数据输入、错误，甚至恶意攻击时，仍然能保持稳定和准确。

所以，鲁棒性强调的是在各种复杂、多变的环境下，仍然能保持可靠和稳定的性能。

除以上两点，o1在训练时还用上了数据飞轮（Data Flywheel）；它的正确答案会被用来再训练它自己，帮助它变得更聪明。

当然，为支持这些复杂的思考任务，o1还用上了一些特别优化的算法、架构。这些技术让它更快、更准确地解决问题，提高了它的整体能力。

总之，o1模型训练关注五个维度：

1. 自我对弈强化学习；2. 模仿人类慢思考；3. 拆解了思维链的过程；4. 在思维链中加入了鲁棒性测试；5. 数据飞轮再强化。

看完官网文档，说白了，我觉得他们让AI更像人了。

四

再强大的东西，不商业化肯定不行。那么，o1模型的成本和使用限制有哪些呢？

o1-preview的价格是：

每处理一百万个输入要花15美元，每处理一百万个输出则是60美元；这说明，如果你用这个版本，输入和输出的处理费用会比较高。

真贵啊。这是什么概念？举个例子：

如果你每天和这个模型聊天100次，每次输入1000个单词，那么一天的费用是75美分乘以100次，等于75美元。按照现在汇率，75美元约等于540人民币。

这样看来，使用这个模型的成本相当于每天花540块钱。如果你每天都这么使用，一个月下来的花费就非常可观了，堪比请一个专家了。

而o1-mini的价格便宜一些。

每一百万个输入只需3美元，每一百万个输出12美元。但这个便宜版在功能上可能会有些限制；如果你是ChatGPT Plus或Team的用户，就可以优先尝试o1模型的功能。

对开发者来说，要求就严格多了，只有支付了1000美元的五级开发者才能用这个模型，而且每分钟只能调用20次。

至于API的调用限制，o1-preview每周只能调用30次，o1-mini每周可以调用50次。这种限制是按周来算的，不是按小时或分钟。

功能方面，目前的o1模型还不能支持所有的功能，比如理解图片、生成图片、解释代码、网页搜索等。所以，用户现在只能用它来进行基本的对话。

官方还说：

虽然现在o1模型成本较高，使用也有限，但随着技术发展和OpenAI的不断改进，预计将来会有更多用户能使用到这个模型，成本也可能会降低。

不管怎能说，AI越来越像人一样“深思熟虑”了，至于这个模型，谁会付费呢？谁又能为它支付1000美金呢？或许，只有大公司、研究机构、有特定需求的专业人士才能承担得起。

那到时候，真就成了花钱请了一个“AI专家”，所以，AI会替代专家吗？

总结‍

越来越像人的模型。

谁也猜不到，未来的o1-preview（mini）会发展成什么样，至少，它肯定不会是个普通的GPT。

它会发展成具身智能吗？有这个可能。随着技术不断进步，o1-preview（mini）很大概率会改变一些行业的运作方式。

本文来自微信公众号：王智远，作者：王智远