OpenAI的Q*没有毁灭人类,却打了学术界的脸
2023-11-28 20:37

OpenAI的Q*没有毁灭人类,却打了学术界的脸

本文来自微信公众号:硅基立场(ID:gh_1b4c629a6dbd),作者:王兆洋、苗正,题图来自:视觉中国

文章摘要
本文讨论了OpenAI的Q*技术,它是通过结合Q学习和A*算法来快速求解问题的一种方法。文章探讨了Q*的原理以及其对人工智能发展的意义。同时,文章还指出了OpenAI在技术话语权方面对学术界的碾压。

• 💡 Q*是通过结合Q学习和A*算法来快速求解问题的方法

• 💡 OpenAI垄断算力资源,导致学术界和企业界之间的算力不平衡

• 💡 OpenAI将Q*成为跨界热门话题,却未公开具体技术细节

1. 围观了OpenAI的权力游戏后,人们依然期待它背后的真相跟AI技术的恐怖突破有关,而不完全是一场过家家的权力闹剧。而Q*的传闻就这么及时地来了。


2. 路透社最早把它捅了出来。据这些报道描述,Q*在庞大的计算资源支持下可以解决一些数学问题,虽然仅有小学生的水平,但OpenAI的人认为会做数学题就会威胁人类,OpenAI的技术团队也的确就此向董事会发出预警,而正是这封信导致董事会对Altman突然下手。


3. 在原本以为尘埃落定后,这个只有一个代号的技术再次引起热烈讨论。这个神秘技术究竟是什么?OpenAI同样没有对此做任何解释。对技术细节不熟悉的人们乐于想象Q*会成为AI毁灭人类的重要一步。但其实你要是真想关心这技术本身,它可能并不复杂。


4. 简单来说,Q*=Q+A*。我们拆开来,先解释“Q”。人工智能领域跟大写Q沾边的,本质都是Q学习,指的是在训练的过程中,告诉智能体下一步怎么选才能跟历史最高奖励值相同。


5. 打个比方,Q学习和智能体就像是一支球队的分析师和教练,分析师辅佐教练,教练真正负责指导球队。教练的决策是要反馈到环境中才能得到奖励值,而分析师只记录奖励值,因此不需要对环境建模。


6. 它背后的思路早在1989年就有了,后来最主要的进展是DeepMind等把神经网络技术用在了Q学习求最大奖励的过程中,发明了DQN(深度Q网络)


7. 它也一直不是一个热门的技术。因为随着今天动辄几十亿几百亿参数的大模型流行,教练结合现实环境的反应能力异常强大,分析师就显得添乱了,Q学习看起来增加复杂性,降低鲁棒性,没什么帮助。


8. 然而,Q学习体现的思想却一直在吸引着研究者,因为它和计算机的运行本质接近:它就像是高配版弗洛伊德求边长,而现代计算机中,处理器所使用的核心原理就是弗洛伊德算法,通过与历史最优值比对,求得两点之间最短的路径。


9. Q说完了,再聊聊*背后的A*算法。这是一种启发式算法,我讲个笑话能帮你更好理解它:有一天A决定考考B,问到“请快速求出1928749189571*1982379176的乘积”,B立马就回答A说:“32”。这个A听了就很纳闷,这么大的两个数相乘,不可能答案是两位数。B反问A:“你就说快不快?”


10. 看起来离谱,但这就是A*这种启发式算法在做的事,它的本质就是估算,先通过启发式算法估算一个大概的值,当然这个值很有可能极其偏离正解。估算完成后就会开始循环遍历,如果怎么都没办法求解那就重新估值,直到开始出现解。如此反复,最终得出最佳解。这样做的目的也很清楚,在效率和正解之间只能选择一个,那就选效率。


11. 于是问题也出现了,它的答案对,耗时比较长,放在个人设备上就会导致内存溢出,产生系统问题,比如蓝屏。过往A*算法最典型的应用就是网络游戏中角色寻路。一些大型游戏中,角色在寻路开始的那一刹那出现卡顿,就是因为A*算法。


12. Q和A*讲完了,它们都很简单。而Q*最有可能的样子就是,利用Q学习快速找到接近最优解的估值,再利用A*算法在小范围内求解,省去了大量没有意义的计算过程,以此达到快速求得最佳解的效果。两者取长补短,即节省算力、节省内存,并得到最佳解。当然OpenAI具体怎么做,还得等公开论文(如果能等到的话)


13. 所以你会发现关于Q*的信息,其实很容易就讲清楚。而且,与它到底是什么相比,其实它所体现出来的趋势更加值得讨论:那就是当下人工智能发展中求解的过程比求解更有意义。


14. OpenAI再次提出了Q*,让这老概念有了新意义,毕竟Agent、GPT Store、Q*等都是OpenAI一手捧红的,人们有理由相信,在Q和A这两个早就存在的算法思路里,OpenAI能再次创造奇迹。


15. 为什么人们指望OpenAI创造Q计算的奇迹,而不是依赖最早提出它的学术界?因为OpenAI垄断了算力。现在,算力资源的严重不平等是一个突出的问题,尤其是学术界和企业界之间。9月底,在一场活动结束后我遇到斯坦福大学的李飞飞,问了她一个问题:今天你最关心的AI问题是什么?她回答我说是学界和Google、OpenAI这样的企业之间的算力不匹配。这导致研究者无法复现或检视企业们开发的模型,作为一个一向是研究推动的领域,这种不平衡将会影响很大——学界显然更加倾向于推动安全相关的研究,这让模型的安全性风险增加。


16. 而第二天我有机会和OpenAI的Jason Wei交流,我把同样的问题抛给了他。他是OpenAI的明星研究员,这个岗位理应是学界研究和业界实践的连接者,但他基本没有对李飞飞的担忧表现出共情。他给我的回答是:没有算力他们就去做那些不需要算力的研究好了。


17. OpenAI们越来越不在意学术界对新算法带来的帮助和参与讨论的必要。OpenAI的Jason Wei们的研究,李飞飞们根本无法在实际环境里检测和基于它拓展研究,甚至他们自己的理论研究也越来越没有足够算力来落地,只能停留在论文里。于是,无论是最热门的技术路线还是风险问题的主导权,彻底由OpenAI们掌握。


18. 所以,OpenAI成了最终将Q*发扬光大,甚至成为出圈跨界热门话题的搅局者:它随便一个动作,就能引爆一个概念,引起人们的广泛猜测,直指AI的超级能力和“毁灭人类”的可能。而最关键的真实信息和概念本质,却只会以各种“谜语”形式展示出来,并且最终也大概率不会有论文出现。


19. 因此,Q*被引爆的背后,是OpenAI在技术话语权上对学术界的无情碾压。马斯克老师似乎非常不喜欢今天的OpenAI,但他对学术界的看法却与OpenAI的主流派如出一辙——他认为99%的学术论文毫无意义。OpenAI没人这么说过,但他们就是这么做的。


本文来自微信公众号:硅基立场(ID:gh_1b4c629a6dbd),作者:王兆洋、苗正

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP