原创2024-12-17 21:17

这道数学题，Kimi和豆包谁答对了？

余杨

出品｜虎嗅科技组

作者｜余杨

编辑｜苗正卿

头图｜视觉中国

12月16日下午，我照常使用Kimi，突然发现Kimi数学版的和蔼小眼镜logo的眼镜框变大了。

鼠标移过去一看，“Kimi数学版”已经正式改名为“Kimi视觉思考版”。

这让我想起上周为Kimi数学版写的测评文章。原文如下：

11月26日下午，Kimi上线了k0-math 模型驱动的 Kimi 数学版，官宣文非常简单，一共3张图，1张主题，1张入口，1张能力测评，Kimi用数据说话，直接对标了Chatgpt正当红的o1-mini模型，主打一个“人狠话不多”。

或许是为了面向更多的用户，官方还提供了玩法思路：“听说 Kimi 数学版不只会数学，就像《生活大爆炸》里的 Sheldon 一样，它会用理科思维来解释生活中的一切。你还可以试试让它陪你玩 24 点游戏。”

由于我的数学知识早已还给老师，数学水平和亟需AI提升教育属性从而用来辅导孩子做作业的家长没什么区别，需要验证Kimi做数学题到底行不行，这篇测评经历了一些曲折，以至于还未发出。

Kimi改版后，测评虽成明日黄花，但也有了审视两个版本的Kimi差别的契机。

让我们一起来看看，Kimi做出了哪些改变。

前面提到，我的数学知识早已还给老师，因此，我想了一个办法，用神话战胜神话，让AI给AI出题，看看Kimi在数学能力上表现得怎么样。

首先，我让豆包帮我出一道经典数学难题考考它。豆包表示，让Kimi证明一下任意大于 2 的偶数都可以表示为两个质数之和。

这是一道尚未被完全证明的哥德巴赫猜想数学题。

豆包也是非常“厚道”，但没关系，AI无情人有情，咱们换一道高中数学题试试水。

Kimi数学版

第一问很快，大约20秒钟Kimi就给出了答案，然而第二小问，Kimi花了33秒。解答整道题一共53秒。

总的来说，这是一道常规题，Kimi的表现也可圈可点。

接下来看第二小问。

在这个过程中，Kimi还使用了“然而，我们不妨换个角度思考。”和“然而，让我们再仔细审视一番。”等等非常人味儿的话，并认为自己的解答“无懈可击”。

豆包

转而，我又把这道题扔回给豆包，让豆包解答，对于自己出的题，豆包一共花了40秒，第一问的解答方法与Kimi无出二致。

但第二问，豆包给出的答案却是：

哇～

我们一起来看看豆包的解题过程。

豆包被自己难倒了？

经人类审查，Kimi和豆包的解法似乎都有点问题。

首先，第一小问没有争议。

而在第二小问中，Kimi的解题思路是没有问题的，需要先解出m和k的关系。

但Kimi定点取来（h，k），取h没问题，k是直线斜率，所以不应该取k，至少应该换个字母，比如（h，h1）。

我猜测，Kimi是随便选取了两个字母表示定点，而没有注意到顶点纵坐标的字母k就是直线l的斜率。在这个错误的基础之上，后续的推理都出现了问题。

通过这种方式得出了“直线l并不总是通过一个固定点”的结论后，Kimi进一步提出“换个角度思考”的可能性。

然而，基于上面的错误，我们并不能够确定“存在一个与k无关的固定点”中的k指向的是直线斜率k，还是定点纵坐标k，亦或是通过错误方法得到的关于k的表达式中的k。

如果同样的情况出现在人类解题过程中，“存在一个与k无关的固定点”更多地指向最后一种情况。但是Kimi 的低级错误使得后续的讨论都无意义了。

再看豆包，豆包失误程度与Kimi不相上下。

在最后一步的整理过程，当x=0时，豆包忽略了等式中k的存在，而得出了y = \pm \sqrt{\frac{4}{3}}的结论。

事实上，y=。而因为k是变动的，所以不存在定点。

它被自己出的题难倒了。

总结

数学，原本就是解开宇宙万物本源最为重要的钥匙之一。早期人类通过结绳、刻字来计数，到后面算盘诞生，推动计算的演化与发展，人类的数学能力一直在以指数级提升。计算机首次实现规模演算，人类花费数千年才能推算出的结果跃然纸上，时至今日，这一棒交到了 AI 手上。

Kimi数学版发布之际，月之暗面创始人杨植麟曾在媒体采访中表示，“如果说长文本是月之暗面登月的第一步，那么提升模型深度推理能力则是第二步。”

这套话语背后，映射的是曾经“百模大战”的AI圈对Scaling laws不再深信不疑，所谓Scaling laws是相信“大力出奇迹”，随着模型规模、训练数据和计算资源的增加，模型性能会得到显著提升。

但随着算力扩展到一定的规模，这时算力的增加很难再直接提升模型的质量。从Claude推出更高效的小模型开始，大模型“厂商”纷纷转向寻找有效的方法来Scale。

也就是说，这时的状态是，再加更多的算力，并不一定能看到直接的提升。因为核心是没有高质量的数据，小几十G的token是人类互联网积累了20多年的上限。于是，要通过算法的改变，来释放Scaling的潜力。

对此，月之暗面选择了强化学习的方法和思维链（ChAIn of Thought，简称COT）技术，Kimi数学版即由此出圈，这项技术使模型能够像人类一样进行逻辑推理和思考，从而在多个数学基准测试中超越了主流AI模型。

另外需要注意的是，为了Kimi数学版获得更好的体验，公式推荐使用 LaTeX 格式。不知道怎么输入的话，可以截图或拍照给Kimi 常规版，让Kimi 把图片转为 LaTeX 格式，然后复制题目给Kimi数学版，此次测评完全遵循说明。

Kimi视觉思考版

今天，我找了历史记录，把之前Kimi解析的 LaTeX 格式数学题发给了Kimi。

对于第一小问，Kimi给出了如下解答。

首先，Kimi的数学公式符号更加完善了，另外，它增加了验算步骤。

这次Kimi的解题过程耗时4分半钟，并且，在3分10秒左右的时候，Kimi经过了一个大大的停顿，似乎因为chat的篇幅所限，“断了”。

上周测评时我曾写到：“但显然从以上解题过程来看，‘像人类一样进行逻辑推理和思考’似只停留在表面，这一宏伟构想还有一段路要走。”

从这周发布的Kimi视觉思考版看来，它似乎太“人类”了，它会说“我觉得我之前的展开可能有误”，还会说，“等等，还有一个想法”。

更重要的是，到这里，Kimi的推演中断了，由于给我提供了“接着说”按钮，我猜测是之前的推演篇幅过长，Chat的容量还需要调试。

我们先一起来看接下来的解题步骤。

内容还挺硬核，上次的测评，我请学数学的朋友看了看，人类的解题思路在上文了。

这一次，把评分交给大家。

看到这里，你会想给Kimi点个赞吗？

如果你有观点、想法或想看的测评，欢迎和我交流。如果你喜欢这期内容，别忘了一键三连，因为这也是我探索更新的动力，我们下期再见～。

文章标题：这道数学题，Kimi和豆包谁答对了？

文章链接：https://www.huxiu.com/article/3804073.html

阅读原文：这道数学题，Kimi和豆包谁答对了？_虎嗅网

AI原生产品日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定