王小川再谈AlphaGo:如果机器的目的是存活下去,就是在创造生命了
2016-03-26 09:27

王小川再谈AlphaGo:如果机器的目的是存活下去,就是在创造生命了

虎嗅注:当AlphaGo赢了李世石,在围棋界和科技界引起巨大轰动效应,而在这场棋局开始之前,搜狗CEO王小川就在知乎上预测AlphaGo将完胜李世石,在比赛的过程中他也担当嘉宾现场解说棋局,甚至任性地宣布,只要AlphaGo赢了,就放假一天,甚至将那天定为搜狗的“狗胜节”,这样一个对人工智能和技术狂热的CEO在3月24日博鳌论坛《人工智能——探索生命疆界》圆桌上跟我们进一步复盘了这场围棋比赛,通俗易懂地揭示了AlphaGo的工作原理,并引申到大生命和哲学的高度……


“(没能在深度学习上做起来)这是我觉得最近几年最懊悔的一次”


梁冬(正安中医创始人):前段时间有个很热门的话题就是 AlphaGo 和李世石的对抗,很多人认为这是一场关乎机器和人类的对决。我们应该怎么看待这件事情?小川兄应该是中国最有资格对这件事情进行解读和评价的人,我听说前段时间小川兄在更早之前,其实就想在搜狗内部启动一个类似于 AlphaGo 的一个研发,去做跟围棋的博弈和对抗,当时怎么样?


王小川:去年初,我们已经开始意识到了深度学习这样一个技术有机会应用于下围棋,所以我就希望在内部、外部找到适合的人一块做这个事,但是很可惜,限于资源、精力没有凑起来。但是我对围棋非常感兴趣,所以今年一月底谷歌的论文一登出来,我立刻说谷歌会完胜李世石,原因是看了论文之后,我发现里面的内容跟我们之前对于人工智能,对于深度学习理解的模式是非常一致的,所以一方面是自己本身有这样一个信仰,然后一看谷歌已经走在前面了,我也相信它的技术实力,也就是 80% 是对技术的理解,20% 是对谷歌和人工智能情怀的认同,所以我们认为它们有能力做好这个事情。


梁冬:你发现另外一个高手做出来了,而且做得还很好,你不觉得这是一件人生的遗憾吗?


王小川:这是我觉得最近几年最懊悔的一次,所以再后来我做了很多弥补工作,所以在后期我深度参与进了这件事,包括对技术的解读、参加现场直播等等,可能弥补了 10%,但还是有很大的遗憾。


梁冬:这几年在全球中深度学习最新的方式是什么,为什么深度学习这几年会突飞猛进,它和以前深蓝战胜国际象棋冠军的那一种学习有什么不一样,这种深度学习的模式是不是可以自生长,长到有一天完全失控?


王小川:这是一个挺技术化的问题。深蓝是 IBM 当年推出的 RS6000 型号的像超级计算机一样的机器,1997 年,在第二场比赛中把卡斯帕罗夫打败了。但是深蓝与今天谷歌的 AlphaGo 的计算力还差了三万倍,时代变化,接近 20 年的时间里,计算力是突飞猛进的变化。但事实上,AlphaGo 并不简单的只是赢在计算力的提升,否则就不会有围棋选手一边倒的认为人类一定能赢,即便是科技圈的人,对于深度学习有理解的人,大多数的评价也都认为机器以后会赢,但这次赢不了,所以在这里面到底发生了什么样的事情呢?


自深蓝之后,技术有了三次跨越,深蓝的技术其实就是靠人写的一些规则来指导机器做搜索,你下一步棋,我下一步棋,然后下了十几二十步之后,它开始判定棋局上谁占优。机器搜索的方法其实是依靠人在里面做的很多的设定,“每一步该怎么走”这样输入到机器里面去,所以其实除了开局有棋局以外,大体上是暴力的搜索。我算过一次,大概搜索十三到十四层,每次展开三到四个页为节点。


今天我们用一个台式机,甚至一个笔记本就已经可以赢顶尖的国际象棋选手,计算力的提升已经使得象棋问题彻底被解决了,甚至能够让顶尖的国际选手一个兵,甚至两个兵,然后再做开局也能赢。人类在国际象棋里面已经被碾压了,只剩下一个底线——围棋。围棋没法突破,因为国际象棋和围棋在搜索空间的大小上有巨大的差距。国际象棋搜索空间其实不够大,现在的笔记本就够用了,而围棋的变化数比宇宙间的原子总数还要多,所以如果只是用穷举这种暴力方法是不可能的,用原来的搜索方法就不行了。


我们往下就开始向人去学习,把人的思考方法交给计算机,进行了三步变化,第一件事情就是我们把人已经懂得的规则交给机器,这是原来的方法。所以以前的工程师不管是做下棋还是做医疗的,或者写电饭锅控制程序的,都是把我们懂得的规则写成一个代码交给机器,或者把数据给它,然后人在里面做指引“什么数据要怎么处理”,来教会计算机对当前的真实物体建模型,把它变成一种特征,然后在里面去做一些分类算法之类的工作。人需要像教小孩一样,把数据的特征描述出来,告诉机器求解的方法,这是传统的机器学习教会机器的第一件事。


但很多时候,我们自己都不知道方法是什么。比如我们说梁冬,你看见他的时候知道他是梁冬,但是你要如何告诉别人你是怎么知道他就是梁冬的?这就难了,是眉毛粗还是脸方?所有的描述其实不支持通过建立模型把他识别出来,所以在有些问题里面发现我们人已经很难把方法告诉机器,甚至自己都没有一个方法的理解。这件事困惑了我们非常久,即便到 2006 年之前,我们都很难应对这种说不清道不明的事,怎么办呢?


2006 年出现了一篇论文:《深度学习》,它提倡使我们的计算机去仿照人的大脑皮层的工作——当人的视觉看到一个图像之后,在大脑皮层从第一层里面变成刺激你的神经元,然后神经元把这个信号传给下一层,然后它就很广泛的连接。下一层如果一部分被点亮了它就往下传递,传递几层之后就能做这样的识别。神经元是有参数的,什么样的刺激你有什么样的反应,这是人识别的基本工作的原理。机器开始仿照人之后,我不用告诉机器这个方法,我的神经元模型里面只输入梁冬的头像,告诉他这个头像叫梁冬,就有答案了。


在这之后,深度学习变成了一个方法,是不告诉机器方法,只告诉机器输入条件和答案是什么,让机器进行学习。代价是需要更多的数据,结果是人变得更加轻松了。我们的工程师对于医疗、对一些图像、语音,原来这些领域里面没有足够多 knowhow 的地方,现在我们都敢于进去,只要告诉机器答案是什么,机器就可以自己去思考怎样求解。


“谷歌把 KGS 的服务器上人类棋手六段以上对弈的 30 万盘棋放在机器面前,就让它去学习”


梁冬:我前几天碰到过一个老和尚,我说什么叫“我执”?他说我执就是“坚定手段、变换目标”的人;“坚定”就是“坚定目标,变换手段”的人。所以我们要做的事情就是一个坚定的人,而不是一个“我执”的人。手段其实是基于道的,就是像水一样,哪里有空间哪里流,总之我流到哪里都是可以的。


王小川:谷歌就是我不告诉你这个方法了,我也不知道方法是什么,像人下围棋也是棋感,跟人脸识别一样的。所以谷歌就把 KGS 的服务器上人类棋手六段以上对弈的 30 万盘棋放在机器面前。在什么局势下,人是怎么落子的,30 万盘棋大概有接近三千万棋局和答案,就让它去学习,学习之后机器不仅把这 30 万盘棋学会了,它自己这个过程里面会产生对类似问题的分析能力。所以棋局变了之后,它也能够根据以前的经验,它能够去做判断。不是记住这 30 万盘棋,而是 30 万盘棋有个泛化能力,一下子就变成了人下棋的方法。数据表明,给它一个棋局,它往下怎么走子的仿人能力达到了 57%,就是每一百个子下下去,其中 57 个子跟人的直觉的下法是一样的,这件事情已经有巨大的突破了。这件事情做完之后,剩下 43% 跟人不一样的,不代表它不好,所以它具备了很高的棋力。


根据评判,AlphaGo 已经达到了五六段的水平,学习了棋感的过程,以前教它靠搜索或者规则开始建立棋感。但这并不是谷歌能力能赢人的地方,毕竟 30 万棋下去只是六段,它跟人的思考能力还是有距离。


然后谷歌觉得还不够,就进入了第三个阶段。谷歌就把 AlphaGo 变成了神经分裂的两台机器,按照刚才人下棋的方法,它自己可以做少量随机的变换去下,就像金庸小说里的老顽童“左右互博”,有可能这局赢了,那局输了,就是自己跟自己打,然后让机器倒着去推,这步棋怎么没走好?


这个阶段的做法,不是给答案,也不是给方法,只是在最终告诉它在目标上是更接近还是更远了。赢了,让它倒着推,输了,自己回去算怎么输掉的。


这也像是我们跟人互相之间的学习,比如小孩子被烫了,不是我告诉他不要碰,而是他自己感到痛苦,知道以后不能碰——这种学习我们叫做巩固学习或者增强学习,既不给方法也不给你答案,而是只是让机器自己找到答案之后,我去评价你这个答案是让你更好了还是更差了。这个时候机器就追逐赢的目标,而不是追求每一步棋怎么走。我认为这是跟人学习一样的,给你方法、给你答案,还是最终只是评价你。


但我们觉得机器在赢棋这件事情上,AlphaGo 是非常局限的,它的胜利有两个条件:第一个,只是下棋赢,赢棋是唯一的目标;第二个,它只能在 19×19 的棋盘上,我们如果把棋盘从 19×19 变成 20×20,机器就傻了,因为它的环境发生变化,如果是人下棋,变换棋盘其实对水平影响不大。


另外,人还有种能力,能够把学到的经验转移到其他事情上去。我们知道围棋选手思维会很缜密,下棋会教会他做一种利益交换,下棋不是光把别人打掉,他是在想到底走先手还是走后手,局势里面互相之间能够得到一种平衡。人的思考会把一个经验转移到其他领域里面去,他有这样的变化,而今天的机器还远不到,所以你叫它有意识有智能,它只是在一个局限的环境里下棋的一个机器。


“如果机器的目的不是赢棋或者输棋,而是能够存活下去,我觉得它们就在创造生命了”


梁冬:现在很多人都在讨论 AlphaGo 会下棋之后,它会不会去学习别的东西,因为会下棋只是乐趣,但如果它深度学习的能力到另外的领域,比如说医疗、律师,会不会影响我们?这些学习的方法一旦被打开,会不会像潘多拉的盒子?


王小川:你刚刚题目叫转移学习,就是把一个领域学习的知识运用到其他领域去,这是 DeepMind 在做的一件事情。这个团队是英国的,谷歌大概花了 4 亿英镑全资做的收购,当时 20 人,现在 200 多人了。我们刚刚看到这个机器通过用监督学习,把人类历史的 30 万盘棋先学会了,然后再自己跟自己下去超越人,通过这样一个路径,把人类四千年来的经验提升,然后再去超越、进化。


这个时候,谷歌还干了另外一件事情,它想——我如果不要去学习人之前下棋的方法,或者下棋的答案,我就让这个机器自己跟自己下,一开始可能很傻,这两个机器随机落子,但是最后也能有输赢,让它从一个白痴去进化,是否它最后也能变成一个下棋的高手?现在已经在做这件事情了。这时候这样的一台机器,以下棋为目标的时候,它已经脱离了人之前的经验,有可能会进化出来一台跟人走棋风格完全不同的机器。


如果未来谷歌能够把这个计划做成,宣布跟柯洁再打一仗,那人类压力就更大了,他面对的不是有人类经验的棋手,而是完全进化出来的一个棋手,它的目的不只是赢棋了,而是好奇当智慧和经验从零开始进化的时候,是否只有人类这一条道路。


从这个延伸下去我们再想另外一个问题,如果机器的目的不是赢棋或者输棋,它的目的是这个机器能够存活下去,甚至能够产生自己的繁衍,把这个当成目标,不只停留在 19×19 的棋盘上,而是变成你要生存的地球,或者一个实验室里面,我觉得它们就在创造生命了。生命的本质无外乎在这几千万年里面自己存在下去,所以人开始进化,发展出两条腿两条手,发展出眼睛鼻子,开始有智力,甚至有了情感,有了社会的道德。


梁冬:你刚才带出了很有趣的观点,你认为广义上的机器会衍生出自己的情绪、意志,甚至好恶?


王小川:有可能,现在国外科学家在做这样的试验,所以从 AlphaGo 里面,我们看到的不只是一个会下棋的机器,不只是看到一个智能这个词,而是看到怎样推动一种进化,而这种进化有目标。我一旦设立了目标、设立了环境,如果我有合适的算法,我最后在这个环境或者目标下,就能培养出来一种能生存的能力。AlphaGo 是赢棋的能力。但如果它是生存的能力,它就变成一种我们认为生命,生命其实就是生存和繁衍,所以在 AlphaGo 的道路上,我们在国内只关心机器打败人,但是确实在技术里面它们做得更远。


“我在《复杂性》这本书里面找到了到迄今为止对生命解释最好的定义”


梁冬:你刚才提到“生命”,一直以来人类有一种骄傲,认为我们始终是一个独特的 something,我们是有生命的,它们是没有生命的。站在你的角度来看,什么是生命?人工智能是否会演化出它自己的生命?


王小川:这是很大的问题,我已经想了十五六年了,然后也有自己的一些答案。我先讲一个我读研究生时候的事,我当时的工作是搞计算机和生物信息,就搞基因的,所以我的毕业论文做的是基因测序。那会儿我就开始理解到,发现基因的一个变化,从 DNA 变成人的过程,是一个机器复杂的过程。我们说苹果落地是特别简单的一件事情,或者说公司倒闭,所有的现象里都能预测它的未来怎么变。但是基因核心是能够把自己变成一个蛋白质,DNA 上有很多基因,变成蛋白质,蛋白质后面就变成你身体的一个组成部分,或者是一种催化剂,称为有机催化,它比无机催化速度会快一万倍,大家还记得吗?这是中学里讲的知识。


我们知道,人的身体处在无时不刻的变化之中,这种变化我们是否通过计算得出结果:给你一个 DNA,然后计算这个 DNA 最后长成什么样的生命?我就好奇这个问题,无论以我十几年前的技术,或者今天的技术,一样是不可解的,甚至 AlphaGo 的能力也做不到。我们其实给了你 DNA 之后,很难去预测它未来长成什么的样子。我们听过蝴蝶效应,蝴蝶效应就是指在一个混沌的复杂的系统里面,一点微弱的变化,误差就开始产生积累,最后就完全不一样了,就是这种情况。


但是这种情况下,我认为在基因里面也应该有蝴蝶效应,原始点出现变化,最后结果就会不一样。每天上亿次的变化,我觉得不可思议的是,我们今天觉得特别自然一件事情,但是我们用计算机的变化去模拟的时候,计算力是完全无法支撑的。我们通常认为只要一点变化,人最后就长“没”了。就好像做“天气预报”,我们今天能预测大概两天,还比较准,预测七天就很难了,预测十天基本不可能。


这种情况下我们要用多少数据?第一个,我们要把整个地球的数据都采集到。第二个,计算力极大,我们要把空间分成小格子,每个小格子里有温度、湿度、气压,用微分方程做迭代,预测后续的变化,即便这种计算下,我们也只能计算几天后的情况,不会太久的,但是你要知道,人类体内的基因变化或者带来人体的化学反应,可能比地球的大气还要复杂,而且这种基因驱动我们不止七天后的稳定性,它甚至注定你六十年后你会长成什么样子。所以这样一种力量让我产生了想去理解这种现象和变化的想法。生命其实蛮奇迹的,它能够绕过世间很多的不确定性,所以我开始相信宇宙里有很多事物,是能够去对抗环境的变化的。


你看到 DNA 的时候,不用管周围环境、家庭、国家,就能明确知道能长成什么样的结果,一个局部的因在很长的时间里面带来一个确定性的结果,这是我当时对生命特别好奇的地方。科学是什么?它有个定义——是我们用来解释过去或者我们用来预测未来。


在我们人类所谓的智慧里面,核心的一个工作就是能了解过去的原因,对未来能产生预见。以蝴蝶效应看,我们其实很悲观,我们世间万物有太多的不确定性,但是以生命的视角看,很多事情冥冥之中就会走到那个结果里去。未来如果它变成一个能确定事情的时候,我才有研究的基础,所以我就开始在想,宇宙中间到底什么事情时候是能够被确定的?


先回到这个问题,最先变成一种不是偶然现象,变成一种必然,甚至越来越确定,确定的概率变高。“确定”如果换成专业词的话就叫“有序”,有序是跟混乱和无序相是对应的。有序和无序,物理学里叫熵。定义熵之后,我们有一个很悲观的想法,叫热力学第二定律,讲到封闭系统,熵值是单增的,也就是说一个封闭系统一定会走向无序的。但是事实上我们今天看到的还好,我们这个系统是开放的,它是不断有能量的注入,甚至有物质的交换,不是一个封闭系统,就能开始产生有序,而且有些有序的系统或者子系统,它还能影响周边,让自己的有序变得更多,这种现象我们怎么定义?


后来我看一本叫做《复杂性》的书,这本书是诺贝尔物理学家、生物学家、经济学家一起写的。我在这里面我找到了到迄今为止对生命解释最好的定义,用了两句话——第一句话是叫做“性状相对稳定”,它是四条腿不会突然变成六条腿,如果我砍了你一下,你可能流了血,但是你会开始愈合,就是你要在环境面前让自己回到原来的状态里,回到原来有序的确定性里面;第二句话叫做“能够自我复制”,就是能把自己的这种状态,这样一种确定性变得更多——满足这两条叫做生命,到目前为止,我认为这样定义是不错的。


梁冬:这是个蛮烧脑的话题,这么说,一个组织是有生命的,因为我们会发现很多公司有自我排异性,不适应这个组织文化的人就会离开,当这个公司出现问题出现危机的时候,这个公司有一种冥冥的力量,能把这些人团结起来让公司继续发展。当我们用有序性这个逻辑来重新衡量对生命看法的时候,我们发现生命不仅仅是在动物或植物身上,而是扩展到更宽泛的地方,如果这样的话,就会得出一个特别有趣的结论——当人工智能开始意识到他需要自己建模,自己有序化所有行为的时候,它就开始演化出它的生命力了。


王小川:如果一个机器能够让自己存在,而且让自己产生复制,那就开始进入到生命的领地了。生命的本质我们看上去是奇迹,但是在宇宙里面是很广泛的,在地球上任何角落都有生物,即使在特别寒冷的地方也能够繁衍。


生命怎么产生的?有一个诺贝尔化学奖的人,他提出了好善结构理论,核心讲的就是在无序中间怎么能够产生有序,他甚至用数学方程式去证明这件事情。他认为满足三个条件:



  • 这是个开放系统,它需要跟外界做物质和能量的交换;

  • 这个系统本身里面的反应是非线性的,它的变化是能被放大和积累的;

  • 这个系统当前是不平衡的。



只要满足这三条,在无序当中就能够产生有序,这个事情成为二十世纪最后一个重大的一个哲学思想,无序和有序其实代表了无机和有机两个世界,以前我们认为无机跟有机世界是隔离开来的,但是他在理论上证明了在无序的世界里面是能够变得有序的。


梁冬:无机物可以变成有机物?


王小川:可以做这种转换的,这就打破了我们很多固有的思想。在数学层面,在科学层面,它已经有一些对应的解答,从无到有的过程是自然的一个过程。


梁冬:《裸猿》是 1960 年代特别有意思的一本书,这个作者说,如果你真正的研究了人类这种灵长类动物变化的过程的话,你就会不得不承认,它只不过是众多动物当中的一个,没有你想想的那么了不起。在你的视角里面,你也认为人类似乎没有我们想象的那么与众不同。


王小川:没错,这件事情是我在研究生时期的一个重大的思想转变。生命是能够性状相对稳定,就是有序,还能自我复制,那么你体内的细胞是什么?体内每个细胞也是相对稳定性状的,它有细胞膜,有线粒体,有细胞核,细胞进行分裂,我们身体的 DNA 是什么,双螺旋结构,这个双螺旋结构有非常清晰的有序性和性状稳定,然后在适当的酶的刺激下会产生 PCR 的过程,会变成两条 DNA,然后把其他的核糖核酸放上去产生复制。这太可怕了,我体内的细胞或者我的 DNA 也是一种生命!要去接受这样一个现实,那么就改定义,定义改来改去改不出来一个恰当的描述。


往上走,一个公司其实有它自己稳定的性状,而且很多公司也很相象,公司也要维持自己的稳定,如果这个市场发现收入减少了,那这公司就一定会说我去另外开拓一个市场活下去,就像人,今天没有面包那就吃馒头。在这种情况下,我就更没有让自己特别自大的理由,不断想,我就是在大环境中的一部分。


所以在这样一种思想里面,我们会打破很多的执念。我们其实很痛苦的,像早年间我们开始有了哥白尼,他发现了地球不是宇宙中心,已经引起了一次恐慌,大家知道我们人的存在意义变小了,但大航海时代到来了。这次 AlphaGo 里面,我发现最受打击的一个群体是围棋专业选手,我第一场比赛的时候是跟余斌总教练在一块,最后他整个人处于一种精神恍惚的状态,他作为棋手自己的尊严和自己的一种使命感,这种恐慌对于我们每个人可能都会有一些。


“边界越大,你输出的解答越开放,没有固定的答案,那会更难被取代”


梁冬:这个话题最后要讨论的一个问题,再过五年十年,以你的预测,你认为什么样的人是有价值?如果你有一个孩子,应该如何培养,让他在十五年以后还有价值?


王小川:这个时候我们就回到机器学习的本质,虽然它很多事情做不到,比如语言机器没有掌握,在有限时间里机器做翻译是蛮困难的,因为它没有概念没有推理,但是拉回来我们怎么来思考这个问题,机器能干什么?


以现在的方式,机器是有两个限制条件的,第一个限制条件是它的工作环境是相对封闭的,只是在棋盘上或者它输入的信息是有限制的,所以如果我们干的活,我们处的环境让我们做决策做解答的时候,我们输入信息是一些固定限制的信息,比如做审计师,如果你看的都是财务报表,你输入的数据都是在一个封闭的环境里面的数据,然后你的答案都是标准化有解答的,这种岗位就最有可能被机器取代,答案越标准,而你所要应对的问题越是这种单一,越集中在一个有限的数据驱动你做事情,这种岗位就更有可能被机器干掉,一旦机器干的话就比人干得好。比如司机,司机其实面对的环境数据是有限的,无外乎你就看看窗户外面的数据,你的最终目的就是别撞了,把车开到目的地。环境越简单,你最后的动作越标准,这样的工作岗位最容易被取代。


你可能要了解整个世界,整个人文,了解所有发生过的事,探索更大边界,不仅你们村的事,美国的事情中国的事情你都知道,边界越大,你输出的解答越开放,没有固定的答案,那会更难被取代。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP