“举一反三”的学习能力,AI也要追上人类了?
2023-10-26 10:05

“举一反三”的学习能力,AI也要追上人类了?

本文来自微信公众号:生物世界 (ID:ibioworld),作者:王聪,编辑:王多鱼,原文标题:《Nature:超越ChatGPT,思维更像人类的人工智能诞生,具备了人类举一反三的能力》,题图来自:视觉中国

文章摘要
最近,一项研究发表在Nature期刊上,报道了一个具有类似人类系统泛化能力的神经网络。该神经网络能够将新学到的单词添加到现有的词汇表中并在新的上下文中使用它们,表现出与人类相当的能力。这一突破性进展挑战了神经网络是否能作为人类认知的可靠模型的经典观点。

• 研究开发了一个神经网络,具有类似人类的系统泛化能力。

• 该神经网络在学习和测试中表现出与人类相似的能力,甚至在某些情况下超过了人类的表现。

• 这项研究可能使神经网络成为更有效的学习者,减少训练大语言模型所需的数据量,并最小化可能产生的“幻觉”。

人类非常擅长学习新概念,并将其与现有概念系统地结合起来。例如,一个小孩子一旦学会了如何“跳跃”,那么他就会很快理解并学会“向后跳跃”或“跳过障碍物”。这种将新老概念结合的能力也被称为系统泛化(Systematic Generalization)


早在1988年,研究人员就提出人工网络因为缺少系统泛化这种能力,所以不能作为人类认知的可靠模型。这也带来了一场持续至今的激烈争论,在这35年里,神经网络取得了许多重大突破,例如自然语言处理,但仍很难证明其具有系统泛化的能力。


而最近,Nature期刊发表的一篇论文报道了一个具有类似人类系统泛化能力的神经网络。


2023年10月25日,纽约大学的Brenden Lake和西班牙加泰罗尼亚研究所的Marco Baroni在国际顶尖学术期刊Nature上发表了题为:Human-like systematic generalization through a meta-learning neural network的研究论文。


该研究创造了一个神经网络,该人工智能(AI)系统在将新学到的单词添加到现有的词汇表中并在新的上下文中使用它们的能力,超越了ChatGPT,表现与人类相当,而这一能力正是人类认知能力的关键——系统泛化。


这项研究结果挑战了一个已经存在35年的经典观点,还可能实现比当今最好的AI系统更自然的人机对话。尽管ChatGPT等基于大语言模型的AI系统在许多情况下都擅长对话,但在其他情况下却表现出明显的差距和不一致性。 该研究开发的神经网络具有类似人类的表现,表明了人类在训练网络系统化的能力方面取得了突破性进展。



在语言上,人类同样有着强大的系统泛化能力,我们可以轻松地将新学到的词汇应用于其他环境。但神经网络不像人类这样天生就具备系统泛化的能力,神经网络是一种模仿人类认知的方法,在人工智能研究中占据了主导地位。与人类不同,神经网络在使用一个新词汇之前,需要经过许多使用该词汇的示例文本的训练。


人工智能领域的研究人员已经激烈争论了35年时间——如果神经网络无法被证明具有系统泛化能力,那么它们是否能作为人类认知的可靠模型?


在这项研究中,Brenden Lake和Marco Baroni用证据表明,神经网络能够掌握与人类相似的系统泛化能力。他们使用一种元学习(Meta-Learning)方法,开发了名为组合性元学习(Meta-Learning for Compositionality)的新方法,其具有优化组织能力(按逻辑顺序组织概念的能力)该系统能在动态变化的不同任务中学习,而不是只在静态数据集上优化(即之前的标准方法)


论文作者首先测试了25个人,看他们在不同情况下使用新学习的单词的能力。他们通过用一种由两类无意义伪造词组成的伪语言来测试他们,以确保参与者是第一次学习这些单词。像“dax”、“wif”和“lug”这样的基本单词代表“jump”、“skip”等基本的、具体的动作,更抽象的功能单词,例如“blicket”,“kiki”和“fep”,指定了使用和组合原始单词的规则,从而产生了像“跳三次”或“向后跳跃”这样的词组。


参与者接受了训练,将每个基本单词与特定颜色的圆圈联系起来,红色圆圈代表“dax”,蓝色圆圈代表“lug”。然后,向参与者展示了基本单词和功能单词的组合,以及当功能应用于基本单词时产生的圆圈模式。例如,短语“dax fep”用三个红色圆圈表示,而“lug fep”用三个蓝色圆圈表示,这表明fep代表了一个抽象规则——将一个基本单词重复三次。 然后,测试他们应用这些抽象规则的能力,他们必须选择正确的颜色和圆圈数量,并将它们按适当的顺序排列。



正如预期的那样,人类参与者在这项学习和测试中表现出色,平均有80%选择了正确的颜色和圆圈。


然后,研究团队训练了一个神经网络来完成与上述人类参与者所做的类似任务,该方法允许人工智能在动态变化的不同任务中学习,而不是只在静态数据集上优化(这是训练神经网络的标准方法)。为了使神经网络更像人类,论文作者训练它来重现在人类测试结果中观察到的错误模式。当神经网络进行新的测试时,它的答案几乎与人类参与者的答案完全一致,在某些情况下甚至超过了人类的表现。



相比之下,ChatGPT的最新升级版GPT-4在进行同样的测试时遇到了困难,平均错误率为42%~86%。这一表现,相比该研究中的神经网络以及人类,都要差得多。


这项研究可能会使神经网络成为更有效的学习者,这将减少训练ChatGPT等系统所需的庞大数据量,并将可能产生的“幻觉”最小化。当人工智能感知到不存在的模式并产生不准确的输出时,就会发生“幻觉”。


人类比机器更擅长系统泛化。如果一个人知道呼啦圈、杂耍和滑板的含义,他们就能理解将三者结合在一起的含义。而这篇论文展示了机器如何提高这种能力并模拟人类行为。


虽然元学习方法无法让该神经网络对训练之外的任务进行系统泛化,但论文作者认为,他们的这项研究结果有助于今后开发出行为更像人类大脑的人工智能。


论文链接:https://www.nature.com/articles/s41586-023-06668-3


本文来自微信公众号:生物世界 (ID:ibioworld),作者:王聪,编辑:王多鱼

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP