写暴走欧洲的系列文,写了一半,实在忍不住回过头来写围棋。今天这个题图,我特意从棋魂动漫 的视频中,找到这一幕截出来的。
第二盘棋,柯洁中盘认负,盘面上大龙横死,如果仅从结局来看,似乎没有第一盘,1/4子 小负听上去那么好。
但实际上,这盘棋的质量和精彩,超出很多人的想象,而我今天要说的是,这是alphago与人类的所有对局里,棋谱最完美的一份。
alphago最早是15年底,alphago V13版本,在未公开的情况下,与退居二线旅居欧洲的职业棋手樊麾老师进行了测试性的对局,五盘不记录成绩的对局里,alphago三胜两负,(实际上樊老师赢了两次alphago,不过是V13的版本,那个版本的实力尚不足以挑战人类顶级高手),五盘记录成绩的对局里,alphago 五胜零负。
这十盘棋谱,实际上质量都不高,樊老师当时压力也很大,毕竟作为第一个输给AI的职业棋手,情绪上出现波动是很难控制的。职业棋手当时基于此棋谱做出判断,认为AI面对李世石不堪一击,并非是盲目自信,但樊老师直到半年后,才有机会证明真的并非是自己的问题。
然而职业棋手完全低估了AI自我进化的能力,2016年的alphago V18版本,已经拥有碾压完爆V13版本的实力,据说是可以让V13差不多3个子的水平。 与李世石的五盘棋的结果大家都知道了,四胜一负,但这五盘棋谱,从质量上来说,也难堪完美,重压下的李世石多处技术变形,与其巅峰状态相比其实还是有所差距;而alphago也存在多处被职业棋手诟病的处理方式,而第4局更是被李世石一个实质上不成立的妙手打爆。
实际上,当时AI即便存在应对错误,局面仍然很难说就已经胜负已分。但alphago当时已经出现了严重误判,连续走出重大问题手,导致局面完全不可收拾,最后棋力不错的黄博士代替AI强行认输,以免在棋谱上留下更加难堪的一幕。
所以,基于如上,柯洁才发出了,“能赢李世石,不能赢我”的豪言。而一些IT从业者当时已经神话AI,误以为其棋力已经迈入巅峰,无以伦比,并对职业棋手做出的判断不屑一顾,其实这也是另一种的傲慢与偏见。
最后打脸这些IT从业者的,恰恰是alphago自己,2016年底alphago V25版本 化名master卷土重来,在网络上横扫人类顶尖棋手60盘。2017年与柯洁对战的这个版本,功力又有提升,按照deepind公司他们自己最近官方公开的信息,这个版本和去年战胜李世石的V18版本相比,可以让前者3个子。
换句话说,去年那个版本,在今天的alphago眼里,千疮百孔,不堪一击,李世石所发现的问题和缺陷,绝不是侥幸和偶然的。而当时直播中所有做即时点评的嘉宾职业棋手里,只有柯洁的形势判断是一直是最准确的,有一定棋力的棋迷想必都还有印象。(我上篇文章 是的,柯洁输了,然而又怎样。 提到这个版本远胜于去年版本,但当时官方还没有提到3个子的领先优势,官方的声明和数据印证了棋界之前的判断,也凸显了王思聪的无理。)
那么,樊老师10盘,李世石5盘,master横扫60盘,外加柯洁1/4子负的第一盘,截止到昨天为止,一共76盘公开的棋谱,我告诉你们,其实每一个棋谱里, AI都下的不够完美,当然,这些不完美,有少部分是它依旧不够完善,有很多是它认为这样下足够赢了。
除了保持优势“稳如狗”的退让策略,已经被广泛理解之外。职业棋手对AI棋谱最大的诟病是AI会轻易的滥用先手,将变化走尽。从人类学围棋的经验来说,保留变化(专业术语是保留味道)是非常重要的,在后续的对弈中,根据不同的进程会有不同的选择,而且特别是针对打劫的时候,根据劫争的大小,先手是可以有选择的用来作为劫财使用。
但AI专家说,走尽变化是算法剪枝,减少搜索树的分支,减少后续的计算量。 在过去的70多盘人机对弈里,AI频频出现这样的场景,但很遗憾的是,由于其局面掌控能力过于强大,人类完全无法对这样的行为作出有效的反制。
那么问题来了,第一,保留变化是否是人类对围棋一厢情愿的理解?第二,AI是否会在劫争紧张的时候出现这样的问题?
所幸这一盘,柯洁的表现,迫使AI作出了答案。
这一盘柯洁的意图非常明显,(其实上一盘也很明显,先捞后洗,简单说就是先拿住能确定的空,再去破坏对手的成空潜力。) 打乱棋形,通过乱战寻求机会。而这一战,柯洁成功的将棋局带入了自己的意图。(上一战,AI在实地和外势平衡方面,展现了强大的局面控制力,成功的破坏了柯洁的意图,早早形势就进入了AI的掌控)
经常看到柯洁在一块棋尚未安定的时候,又强硬的开出一块新战场,形成双方各有几块棋不活的彼此绞杀局面(最多时双方各有五块孤棋,这属于极为罕见的乱战形势),可以说很早就进入了悬崖边的战斗,任何一方,只要一着不慎,就会万劫不复。
尽管在二十多手的时候,AI就连续走出了让职业棋手赞叹不绝的定型妙手,但柯洁的顽强让AI一直没有借此真正建立优势,直到一百手棋的时候,双方依然纠缠不清,局势难判,根据deepmind老板在twitter的表达,在此时,AI并没有认为自己占有优势,这是这个版本之前所有对局中,都没有出现过的。柯洁逼出了AI的极限。(以上是基于alphago的自我形势判断数据,而非棋界人士的经验,更不是无凭无据的恭维)。
柯洁其实在七十多手棋的时候,已经在左下角设计了一个巨大的劫争,却引而不发,继续将局面搞乱,又在右下角试图再度挑起一个劫争,然而此时,alphago并没有让柯洁如愿,我不负责的猜测一下,一些其他的围棋AI程序,在连环劫上判断经常出严重问题,所以柯洁大约是希望将棋引入这样的局面,甚至有可能考虑过去设计一个三劫循环,但很显然,alphago不会让人类如此轻而易举的达成目标。
但关键的事情出现了,从柯洁引导alphago进入他所设计的劫争,并引而不发之后,几十手棋的进程里,我们注意到一个事实,alphago一直在保留变化,一直选择引而不发,没有剪枝,没有滥用任何先手权力,没有做任何浪费劫财的事情。
这证明了两件事情,第一,保留变化是有价值的,人类对此的经验积累没有问题。只是绝大部分情况下,alphago认为无需保留变化也足够赢棋。 第二,alphago完全理解劫财的价值和保留,但打劫会导致胜率的不可控,所以在非必要的情况下,它会主动规避打劫。
只有柯洁的实力展现,才让人有机会看到alphago被逼交出的答案。
然而很可惜,在胶着的局势下,alphago第119手使出了一步妙手,这步棋如果没有职业棋手讲解,我根本看不出来好在哪里。这步棋走出来后,柯洁两片孤棋已经难两全。
但尽管局势转向不利,劫争尚在,胜负仍然存在悬念。 可惜的是,千算万算,劫财居然不如对手。是的,正如上面文章所提,在柯洁引入复杂劫争的局面后,alphago本盘罕见的没有浪费一个劫财,并一直有意或无意的保持着对柯洁的劫财优势。
在劫争引爆后,136手被一些职业棋手批评为败招,因为劫财明显偏小,alphago断然消劫后胜负已分,然而,我更愿意理解为,这是在劫财不足的情况下,柯洁对ai实施的一项骗招,此时AI尚有若干劫财没有使用,柯洁保留了更大的劫财,而试图用这个较小的劫财引导AI形成误判应劫,一旦AI应劫,柯洁将凭空多出一个劫财,成功将局势引导到自己掌控的一边,但显然这个策略并未生效。 alphago的逻辑简单清晰,基于劫财的价值不足,显然消劫后胜率过高。
部分职业棋手认为,当时应该继续扩大局面的复杂性,对AI的整片棋进行更大范围的攻击和缠绕,让棋盘整体陷入更大的死活计算中,我作为业余棋手,没有能力发表这方面的判断,但从实战而言,deepmind官方的表态已经证明了柯洁的状态和能力,很多关键地方的处理与AI自己的最优选择完全一致,而直到中盘AI自己的数据判断,依然是形势混沌胶着不分。最后确实棋差一招,但也已经足够体现了人类的尊严。
alphago消劫后,寥寥数手柯洁即示意认输,其实虽然一条龙横死看上去比较悲壮,但左上alphago也付出了巨大的代价,双方的差距也并不是特别巨大,如果对手是人类,棋盘上依然有可战的空间。
不过,此时乱战已经结束,而 alphago将毫无疑问的进入“稳如狗”的境界,继续下去,是的,我们可以预料alphago不断退让,柯洁不断占一点官子便宜,差距越来越小,但很抱歉,对手不会给你任何翻盘的机会。与其这样获得一个大杀小败的外行看上去相对体面的结果,不如就这样结束,保留一张没有缺陷的棋谱给后人。
这就是我说的,在过去的76张alphago与人类的对局谱里,这是alphago最完美的一张棋谱,没有退让,没有剪枝,没有无棋自补,每一手棋都极具效率,恰到好处,因为只有遇到这样的对手,alphago才会有这样的答卷。
是的,去年李世石让alphago交出了一份不及格的答卷,李世石的棋力和天才自然不容置疑,但别忘了,今年这个版本,棋力让去年的三个子。
机器学习在快速的成长,但我们很多人似乎没意识到,机器学习的成就,也带动着人类的学习和进步,如果alphago把系统的决策数据完全开放出来,人类在棋道探索上的进步还会前进一大截,这件事情也是围棋界一直在极力要求并渴望的事情。然而很遗憾,到目前为止,这一块还只能停留在很有限的范围内进行交流。