被简单字谜“打回原形”：大模型只是单向推理者？-虎嗅网

这段时间还是在持续地关注和学习AI。比如在arXiv里下了些论文来看：

越看越觉得：大模型这块有太多东西值得研究了。

所以自己也按耐不住做点小实验。

比如，我想到“多模态推理”是一个很好的使用大模型的思路。

所谓多模态推理，是指不仅使用文字，也结合图形信息等，一起进行推理。在表达逻辑关系上，图形往往比文字更直观，因而多模态推理如果可行，那么大模型的能力会得到进一步的释放。

可是问题是：大模型是否能胜任多模态推理呢？

我做的第一个简单的实验是使用家族图谱，结果发现，大模型对于形式简单的家族图谱，是可以进行推理的：

这张图是我画的，提交给AI，并加上一句提示词：“请看这张图片，已知张三是大宝的爸爸，请问小杰怎么称呼张三”。

对此，各个主流大模型都能给出正确的回答，比如下图是腾讯元宝（yuanbao.tencent.com）的回答：

从这个例子我们可以看到“多模态推理”的特点：

提示词由文字+图片组成；

文字和图片各呈现了一部分信息，特别是图片传达了文字提示词没有提供的信息；

大模型要做出正确的回答，除了理解文字提示词外，还必须正确理解特定的图形关系。

对于一道相对简单的多模态推理题能做出正确解答，使我对大模型的潜力和新用法充满了信心。可是马上，一个新的尝试，却让我大失所望，甚至有点崩溃。

我的新实验是使用纵横字谜来测试大模型。

纵横字谜在国外比较流行，英文叫crossword puzzle，国内以前有段时间也流行过，出现在报纸的副刊，作为消磨时光的智力游戏，也有一些爱好者。

精心设计的纵横字谜是颇有难度的，对人的知识面和思维能力都有比较高的要求。而纵横字谜又是一种“多模态推理”，既要理解文字信息，又要理解图形关系。可是，让大模型来做复杂的纵横字谜，或许有点强人所难，我便想从最简单的纵横字谜，即“一纵一横”式的开始测试。

上图就是我设计的一个最简单的纵横字谜，并且附上如下提示语：

这是一个纵横字谜。

横向排列的四个方格组成一个成语，以从左往右的顺序。

纵向排列的四个方格组成一个成语，以从上往下的顺序。

根据下图，请帮我推理出横向和纵向的成语分别是什么。

我本以为大模型能轻松完成任务，可没想到：竟然没有一家大模型可以做出来！

比如通义千问的回答是这样的：

文心一言的回答是这样的：

这是为什么呢？我之前让大模型写高考作文，它们洋洋洒洒一千字，一点都不含糊，一篇文章里成语七八个，用得也大多得体，可是为什么这里让它们猜两个成语，就一点儿都猜不出来了呢？

而且它们不仅是猜不出来，而且所答的内容完全是零乱的，错得不着边际。

当然有一种可能性是：它们不是不会推理、猜测，而是读不懂我画的图，或者说，这种“格子里带文字”的形式，它们理解不了。

于是我便再退一步，用更加简单的题目，来问它们：

在这一轮的测试中，我的文字提示词没有变，只是图形变简单了，于是它们就都答对了。

可是我的失望却更大了，我心想：难不成搞了半天，这些n个亿砸下去做出来的大模型，只能回答这么简单的题目，稍微加点难度就做不出来了？那要你们何用？？

我想知道为什么，我想知道这些大模型写文章、写文案、写分析报告时一个个都很能干，为什么猜个成语就这么困难呢？

于是我又反反复复画新的图，做新的测试。

其中有一组测试，让我茅塞顿开：

大家看这四组测试，从我们人类的视角来看，这四组测试的难度应该是差不多的，“来”是一个非常常用的字，包含“来”的成语不少，而且“来”字也可能出现在成语的不同位置。我们人类做这四道题的难度取决于每个人的成语储备量。

但是我发现，对于大语言模型来说，这四组测试的难度有相当大的区别。

对于测试a，即猜测“来”字位于首字的成语，大模型基本上都能答出来。

这是腾讯元宝的回答：

这个回答虽然出现了幻觉，但是至少给出的答案“来日方长”是正确的。

文心一言的回答也是对的：

但是通义千问却说自己没法回答：

再看测试b，测试的结果是都没有答对，如腾讯元宝的回答是：

又是“来日方长”……

文心一言也是突然就凌乱了：

通义千问也没有答出来。

后面测试c和测试d也是遇到了类似的情况，这三家国内主流的大模型，不仅没有答对，而且错得相当离谱、不着边际……比如通义千问对测试c的回答是“不期而遇”：

所以，我便得到了这样一个出人意料的结果：

为了确认大模型是否真的做不了后三种题目，我又做了一组对比：

从我们人类的视角来看，测试e和测试f的难度明显比测试d低，因为提供了更多的已知信息，那么对于解出题目来说就会容易许多。尤其是测试f，答案几乎已经呼之欲出。可是大模型的表现再次让我大跌眼镜！

对于测试e，通义千问、腾讯元宝、文心一言再次全错：

对于测试f，通义千问做对，腾讯元宝、文心一言做错：

于是我们会看到这样一个汇总的结果：

但我的探索还没有结束，为了确认大模型是否确实胜任“测试a”类型的任务，我又出了两道题：

对于测试g，通义千问的答案是“苦尽甘来”，腾讯元宝的答案是“苦口婆心”，文心一言的答案是“苦不堪言”，这三个答案都是正确的：

对于测试h，三个大模型都正确地给出了“苦尽甘来”的答案。

所以统观测试g和测试h，这两个测试都是给出了成语的第一个字作为已知信息，此时大模型的正确率是100%。

讨论

经过上面的这些测试，一个隐藏的规律似乎已经渐渐明晰：

大模型在做成语填充任务时，它必须得到第一个字作为已知条件，通过第一个字，它往往能给出正确的成语，但是如果第一个字是未知的，那么它去找到这个成语就会变得极其困难，甚至在给出后三个字的情况下（如测试f），都不一定做对。

大模型的这种推理特点跟人类显然是非常不同的。

我之前看了一些有关大模型原理的书，明白以GPT为代表的大语言模型，其核心是一个叫做transformer的神经网络算法。而transformer的特点，就是从左至右地、逐一地生成概率最大的那个字符。transformer生成文字的机制本身就是朝着一种方向的。

但是，这是一种“微观”的机制，从左至右地生成字符是否跟从前往后地推理有必然的联系呢？这个就超出了我的理解范围了。但这次的探索似乎提示我们，两者确实是有关系的。

我们可以自豪地承认，人类不仅能从前往后地推理，还擅长从后往前地推理，比如“以终为始”的思维方式，就是从事情最后的结果出发，往前倒推前面如何行动。但是，如果大模型只能从前往后推理的话，那么似乎它就无法进行“以终为始”的思考，这可能是大模型的一个重大的短板。

当然，我这里提出大模型只是单向推理者，只是一种猜测，顶多算一种假说。是否真的如此，需要更加严谨和专业的研究才行。

假设后来真的证明，大模型只擅长单向推理，那么在应用大模型的时候，就必须特别注意这个特点，设计针对性的策略，比如怎么写提示词，怎么做智能体等方面，都要考虑到这个问题，才能扬长避短，真正地发挥AI的潜力。

本文来自微信公众号：采铜的创想世界（ID：CTDT4US），作者：采铜