OpenAI罕见开源，低调发布的新研究，一出来就被碰瓷-虎嗅网

本文来自微信公众号：APPSO （ID：appsolution），题图来自：AI生成

或许是前段时间风头太盛，周末时，OpenAI静悄悄发布了新的研究作品：Swarm。一反之前的架势，这个新作只在官网的Cookbook和Github发布，官推都没有多讲。

除了非常安静和低调，开发人员还反复给自己叠甲：这只是一个实验性质的框架，只作为分享和教育用途。官方不质保，实用需谨慎！

明明已经这么低调，一出来还是被碰瓷了。

什么是Swarm？

Swarm旨在探索轻量级、可扩展、可定制的多代理协作模式。OpenAI的研究人员，提出了「routine」和「handoffs」概念，用来表达agent之间的任务传递。

然而Swarm才发布一天，麻烦就找上门来：一个二十多岁的开发者Kye Gomez发推称，这个新作从名字到框架，全都是抄袭他的创业项目Swarms。

这条控诉吸引了超过20万的围观，不过，围观群众都很冷静，要求Kye提供更明确的证据，并且质疑他提出的诉求：「除非OpenAI投资我们」，这什么东西啊？

很快就有网友翻出他的碰瓷前科。而且，从两边在Github上发布的README文档来看，显然也是OpenAI更靠谱一点。

我把文档送进了ChatGPT，用最新的o1做了一下分析，OpenAI提出了更详实和具体的想法。

至于说项目重名和一些常用指令重合，比如.run()——这就像是有人说自己的数学考卷被抄袭了，因为两边的答题框里都有个「解」字。

OpenAI的Swarm框架里，重点梳理了在多代理模式里的各种成分，并且提出了两个关键概念：例程（routines）和交接（handoffs），还提供了很多便于理解的例子。

例程可以把它理解为由不同步骤组成起来的一套「基本操作」，比如，你搭建了一个购物助理，那么你就可以规定一套流程作为例程。

但是一个agent能做的事，再多也是有限的。更何况大语言模型本身，多多少少会出幻觉。所以需要不同的agent、不同的routine之间有所交接。

就像一场接力跑，一个选手跑完一段，就要交接到下一个选手手上，而且要保证平稳，不能掉在地上。

这些才是本次发布里OpenAI重点关注的部分。或许说不上是什么惊为天人的大发现，但硬说抄袭，也是有点碰瓷了——非要追根溯源，那得倒回几十年前。

多智能体最擅长的，竟然是打游戏

OpenAI并不是才开始对多智能体协作发生兴趣的，早在2018年，就有过不错的表现——在Dota 2职业比赛上，击败了资深的人类玩家。

游戏是一个天然适合用来测试多智能体的土壤，不同的角色，有不同的技能；面对不同的对手，要有不同的策略，总之，想要赢下一局游戏，势必要协调各个角色，并且组织好它们之间的协作能力。

想想你打王者碰到猪队友时有多气，就知道这个难度了。

当时OpenAI Five涉及的技术构件包括神经网络、自训练、强化学习等，没有时下流行的大语言模型，主要是用来试验多智能体协作。

甚至，那个时候每个英雄各自背后的神经网络，并不互相沟通，而是有一个负责总控的超参数，来协调每一个英雄（主要是背后的神经网络）的表现。

再往深了讲就有点太深了，总之，那几年的经历，让OpenAI连续三年打赢了几个Dota2的大赛，也在多智能体协作方面颇有收获。

到了2019年，DeepMind开发的AlphaStar在《星际争霸2》中，水平超过了99.8%的人类玩家。

在星际里，有人族、神族和虫族三个派系，每个派系都有多个可供操作的建筑、兵种，每局游戏也都需要经历资源采集、科技发展和实时战斗等几个流程。

当时DeepMind发表论文时就提到，游戏是一个多智能体协作的任务，每个玩家需要控制许多单位，共同实现目标。

DeepMind所设计的agent，每分钟操作数约为180次，大概等同于中级玩家。当时他们的想法是：智能体要尽可能地学习人类玩家的游戏操作，然后超越人类。

这样的「类人」思路，甚至可以追溯到更久之前：早在1972年，卡尔·休伊特（Carl Hewitt）就提出了Actor Model（行动者模型），这是并发计算的概念模型。演员模型提出了独立计算实体（agent）可以通过消息传递进行通信的概念，为智能体之间的交互奠定了理论基础。

到了九十年代和千禧年初，agent就更加明确地，被视为能够自主行动、决策的「赛博实体」，并且有了基于智能体信念、意图进行决策和规划的研究，BDI模型。

等到了大语言模型横空出世之后，多智能体的交互、决策沟通，从原来的黑盒，变得更容易转化成自然语言。

智能体之间，也可以通过语言来讨论、协作，特别是在决策情境中，不同的智能体之间能够「有商有量」。

之前我们介绍过面壁智能曾经做过的研究，也是在Minecraft，一款沙盒游戏里——不得不说，多智能体实在是太擅长打游戏了。

在游戏里，不同的智能体可以直接对话来完成分工、资源互通和任务传递。大语言模型的推理和记忆能力，都能更有效地为多智能体的行动提供支援。

而OpenAI不就在于有厉害的模型吗——年初时，他们借由ChatGPT灰度测试过，在对话框内，可以召唤其他GPT插件，也算是一种多智能体协作的「平替版」。

只是效果着实不咋地，尝试了一下Capcut的插件，一直鬼打墙地跳转不成功（注：Capcut是剪映的海外版）。

可以说，这一次的Swarm是OpenAI探索充分调动自己的优势——强大的基座模型——再进一步摸索出一个多智能体的工作流程框架。

好消息是，在从OpenAI变得越来越「吝啬」之后。这次Swarm倒是开源出来了。大语言模型让多智能体系统能够以更加自然的方式与人类互动。相信在未来，这种交互绝不仅限于简单的对话，而是会更多地提高生产力。

本文来自微信公众号：APPSO （ID：appsolution）