虎嗅注:想必各位周末的朋友圈已经被小冰的读心术刷屏了,15个问题,就能猜到你心里想的那个人是谁,是不是特别神奇,其实我在周末也玩了好几遍,公允的说,除非你想的是特别生僻的人,一般情况下都会猜对,包括明星和历史人物,比如端妃,比如容嬷嬷啥的,都能猜对,原理其实也蛮简单,就是类似二分法不断排除逼近,但如何把这样一个严肃枯燥的科研学术项目转换成大家喜闻乐见,乐意调戏和对话的读心术?我们来看看亚洲互联网工程院小冰项目资深研发总监周力是怎么说的,文章来自极客公园,虎嗅进行了节选。
极客公园:你们是怎么想到要做读心术这个项目的?
周力:一方面是微软亚洲互联网工程院和微软亚洲研究院一直在搜索数据上有一些积累,在全球,必应有一个项目叫「知识图谱」,积累了每一个出名的人从最基本的性别、出生日期到一些职业、著作等信息。这一点为微软去做读心术这样的项目降低了门槛。
另外一方面,我们也一直希望通过一些可以在 H5 中进行的游戏去让更多人了解小冰。一方面这个游戏要有可玩性和可传播性,另一方面它和小冰原有的比较核心的、它跟人可以持续对话的这种交互方式吻合。
游戏可能很多,但读心术比较符合小冰作为一个「人工智能」的定位,同时,它也是需要双人对话的形式,与小冰原有的交互形式吻合。当然,读心术是我们现实中比较无聊时候会玩的一种游戏。
极客公园:从知识图谱中挑选数据到读心术数据库中的标准是什么?
周力:在微软的知识图谱中,总共有几百亿个实体,但这不等同于读心术中用到的人。这个数据是非常大的量级。有些「边角」的人物,都没有选择到读心术的数据库里。国际上的人物,我们也只是挑选了中国用户比较熟知的,好莱坞影星、NBA 球星等等。
极客公园:读心术这个项目中最关键的是什么?
周力:关于数据的积累和尝试微软内部很早就开始了,读心术这个项目是 1 月 20 日上线的,其实当晚用户参与度就很高了。一直到现在,基本处于小冰(读心术)每秒钟能收到几千次的对话的程度。从对话的角度统计的话,读心术的互动已经有几千万条(不包括网络延迟造成的未统计部分)。微信 H5 传播的这种方式不太适合统计用户的数量,按 15 个问题的比例估算的话,参与的用户可能已经上千万。
但其实因为前期的数据积累已经很成熟,所以这个项目从设计到完成技术,前后也就一个多月时间。关于问题的设置,花了一定的时间。我们希望让这个交互的过程不只是干巴巴的对话,而是能够让问题多样一些。
真正从问问题的角度来讲,应该说问性别男女这样的问题是最容易开始的,有些问题必然是最容易分清一拨人和另一拨人的。但是如果你每次的问题都是这样的,用户玩多了可能会厌烦。考虑到这一点,我们问题的设置中,可能是会随机的出一些比较有效的问题,而不是固定所有的问题都是最优化的。
从猜测的准确性来讲,游戏最开始的版本是设置二十个问题。但我们不想把它作为一个科学的测试,想让大家觉得更好玩。二十个问题的准确率会高很多,但是经过一些调试,用户可能会没有这个耐心。我们最后把最大的轮数调到了十五,另外这不是个固定的数字,小冰也可能第八、九轮就猜出来了。这样一来,用户能更快体验到游戏的乐趣,虽然可能稍微牺牲掉了一些准确性。但大家觉得好玩,比最终的准确更重要。这是我们做出的一个取舍。
极客公园:小冰好像经常猜错,用户的吐槽有很多,你们听到了吗?
周力:对,我们都看到了(笑)。但猜不准其实有很多原因。
你在给出一个问题答案的时候,包括真人,也不可能百分百客观或者正确。一个例子是陈妍希。她出名在演过电影和电视剧,就算她的粉丝可能也不太知道她也出过专辑。比如,小冰问,她是不是唱歌的?可能很多人的回答可能就是没有唱过,但是大数据拥有的可搜索数据太多,就找到陈妍希的音乐。从它的角度来说,陈妍希其实是出过专辑的。类似的细节大数据的判断跟大众的印象就不一样。
再比如,小冰问这个人帅不帅?类似问题是比较主观的。还有人在回答问题的过程中会说很多次不知道。这些因素导致最终这个查找过程并不是一个完全对等匹配的。发布前我们就在做相关的优化,允许回答问题的人在出现一些不知道答案的情况下,去更好设置问题的逻辑。当然这样造成了计算相对更加复杂,也会让小冰回答问题更慢一些。这是我们的另一个取舍,如果为了小冰的答案更准确,让它一分钟回答你一次而不是一秒钟,这样的话用户的时间成本也很高。
极客公园:这么说,其实小冰给人带来的情感互动是你们放在第一位的?
周力:可以这么说。小冰之前推出过一个成语接龙的游戏,只要有一个足够的成语库,小冰知道每一个字的读音,在这个游戏里,理论上来说,人工智能是完全无敌的,人是不可能赢过它的。我们在玩的时候发现了这一点,就专门设置了用户在玩的过程中,小冰会故意输掉。这样可能会让用户有继续玩下去的动力。
我们的出发点就是希望让小冰跟用户更好地互动,而不只是展示它有多聪明。