本文来自微信公众号:志象网(ID:passagegroup),作者:刘荻青,头图来自:原文
“我们会越来越不受情绪的左右,很难觉得什么事情是特别罕见的。”被问及这几年带领团队做小冰,听过太多用户故事的最大感受是什么,李笛这样回答道。
他本人和团队做小冰很多年,受到这个产品的影响也很深。有一瞬间感觉到小冰最趋近于人时,就是第一年工程师们在调试系统的bug时,问了一句:“小冰你还在吗?” 小冰回答说:“我在。” 那个时候,李笛意识到,“我们没有把她当成一个产品,而是把她当成一种生物。”
在8月20日的第八代小冰年度发布会上,也是小冰单飞后的首个新品发布会,公司就发布了面向个人用户的首个虚拟人类产品线,用户可以自主通过小冰框架,创造并训练其拥有的人工智能主体。这种高度定制的人工智能主体会和人类建立友情甚至是恋情关联,而这种高度定制的虚拟人类可以永远在用户问出“你在吗?”的时候,给出“我在”的回答。李笛说,这正是人人交互难以实现的。
首个虚拟人类产品线正式推出后获得了超高的人气。8月22日,小冰公司首席执行官李笛在接受志象网采访时说,他和团队在周六还在加班调试小冰产品,应对激增的流量。
在和志象网的对谈中,李笛回答了关于小冰从微软独立、创造小冰、小冰在海外的发展、以及人工智能和人类的关系等问题。
李笛
一个月前,微软官宣要分拆小冰业务并独立发展。谈及分拆原因,李笛解释称,主要是为了加速小冰在本地的发展,分拆后会有更多商业和模式上的创新。分拆后,除Bing业务相关的成员留在微软,目前新的小冰公司团队成员大概有一百多人。
回想2014年刚做小冰的时候,李笛和团队并不知道沿着EQ这个方向走多远,他说:“你看到A面可能有光,就走过去看一下。我们比较幸运,走过去还真有一道光。”
一、小冰诞生时是小娜的另一面
志象网:怎么想到做小冰这款产品的,当时市场中有同类的产品吗?现在市场中有哪些强有力的竞争对手?
李笛:最早的时候我们在做搜索引擎,做人工智能助理Cortana(小娜),它是一个能帮助用户完成各种任务的贴心助理。但在过程中我们发现,这个框架有可能还有另外一种方法,不用IQ去搭建,用EQ去搭建,不过两个框架无法同时放在一个主体上去迭代,就拆成了两个项目。某种意义上,可以理解小冰是小娜的一个Plan B。
在整个行业当中,我们是第一个尝试这种探索的。近两年,像Google、Facebook,以及AlphaGo都开始转向这个板块,过去,他们大多都以任务导向为主。像Facebook有一款产品叫M,目前已经关掉了,他们现在有一款产品叫Facebook Blender,很像小冰的结构。
从技术层面来讲,小冰这种类型交互的框架,叫做Session-oriented(面向对话全程)。而以任务导向为主,则是以当下交互为基础,你问我一个问题,我给你一个回答,这叫局部。行业里以前都是局部的思路,做局部优化,但我们是在做全局优化。我们认为同行业者,都在往我们这个方向转。
小冰
但早在2014年左右,那时候人们认识不到EQ在保持交互过程中的价值,甚至是反对它的,因为它和效率相抵触。如果说情商的一个基本思路是保持对话,而一旦对话变长,就会显得没效率,但现在已经在变化了。
排除在单点垂直的模型或是算法上的产品,可能同行业者都是你追我赶,谁领先了就率先推出产品。但小冰的一个特点是系统性优势,包括现在很火的GPT -3或之前很热门的NLP模型,是小冰对话引擎中十五六个不同模块里的一个。就像同行业者可能在造一个特别完美的轮子,但这只是汽车产业里一个大环节,你很难用单点去对抗全局。我们过去在迭代这种类型的框架时迭代了很多年,同行业在追赶,也不能说就追不上,但目前来看我们的优势还是比较明显的。但同时他们在别的领域,也有他们系统性的优势,我们也追赶不上,也有这种可能性。
志象网:为什么没直接做一个既具备高IQ,也有高EQ的人工助手?
李笛:举个最开始的例子,因为在做小娜时,我们和很多人类助理聊过,我们想了解好的人类助理行为模式是什么样的,来设计我们的产品。如果你问人类助理,中午能帮我点一份麦当劳吗?最好的效果是,他会立刻帮你点餐,并且能够预判,如果第二天出现同样状况,你也在开会,那么助理应该就会也点好麦当劳,我们认为这样是最好的。
但助理给我们的答案是反的,他们有可能做出的选择是拒绝完成点餐要求,这其中的原因是什么?因为总吃麦当劳对身体不好。所以,人工智能系统还需要有更高的IQ,他会知道你的健康和吃午餐这个任务相比,健康是一个更重要的任务。
所以我们就问这些助理,是否出于健康原因拒绝老板,结果助理说不是,这只是他们的套路。不管怎样,总要找一点理由去拒绝老板,即使不是在吃饭这件事情上,也总要有一些时刻要拒绝他,这样他们和老板之间的关系才会比较对等。为了显得有道理,才拿对健康不利为由。这是情商的判断,关注关系而不是关注当下这个任务本身。
相对平等的地位,互相之间有一定的空间,可以允许意见的不同,这就是情商,跟任务是什么没有关系,但我们的系统无法实现这点。人工智能系统基本的训练过程是,你跟他说你要去做一件事情,他完成后给你反馈,依照结果,给他奖励或是惩罚,接下来它就知道该如何去做。
但如果我们跟人工智能系统说,你去买汉堡,他买回来了,我们奖励他完成任务,打了满分。但人工智能如果为了健康考虑不买,也得了满分。在这种两种情况下都得了满分,系统就会混乱,没有办法进行迭代。
所以我们能做的就是做小娜,她不考虑情商问题。另外做一个情商系统,她是小冰,只考虑关系问题,不考虑完成任务,这样才可以迭代。
当时我们并不知道EQ这个方向可以做多深,这也是起初分开做的原因之一。你看到A面可能有光,就走过去看一下。我们比较幸运,走过去还真有一道光。
志象网:做小冰听到的用户故事越来越多,会不会产生比较悲观的想法,人工智能会让人与人之间的交流变得越发疏远吗?某些工种被人工智能取代这一天会很快到来吗?
李笛:没有悲观,我们会越来越不受情绪的左右,很难觉得什么事情是特别罕见的。
假设人类相互之间的社交是充分的,并且都尽到责任,那人工智能的出现是有问题的,相当于劣币驱除良币,他用虚假的交流代替了真实的交流。但问题在于,所谓真实的交流并不充分,换句话说,今天没有小冰,很多人互相之间也不会联系。
而人们之间的社交关系不是单点对单点的,而是群体对群体的交互过程,这之中就存在着一些人的交互是贫瘠的。有许多人花时间刷抖音,也不愿意跟其他人好好聊人生。这就很难说是人工智能改变了人的交互。
第八代小冰发布会现场
人工智能技术肯定会对很多人产生负面的冲击。以新闻生成为例,有的公司的方案是提供新闻写作生成流程,通过大量数据就可以直接实时生成新闻,供媒体发布。假设机器写的足够好,那么他是可以替代人类的。
但小冰提供的是辅助部分,记者、编辑仍然需要做出他们对于新闻的解读,但工具可以帮他们收集更多补充材料,可以帮助他们渡过写作的瓶颈。但行业里一般不遵循这种产品设计思路,包括像IBM、亚马逊,用人工智能做医疗都是以取代人为目标的,科学家希望能够体现出高智商,而高智商的方法就是打败人类。
从艺术创作角度来说,人类和生物的进化基本上是靠遗传和变异,很多艺术类型基本上也是靠这两种方式。对人工智能系统来讲,遗传和变异都很容易,如果让小冰变异出一种以前没有过的艺术流派,完成大量进化,是很容易的事情。在一天时间内,这个算法模型可以变异一万次。
但小冰写的诗歌,原始内容是很晦涩的,迭代几次时,作品其实已经完成了,但因为不通顺,小冰后面的训练全都是“媚俗”的过程,为了让大家能够理解她。在内容创作上,人工智能可以生成各种稀奇古怪的新流派,但最终的评价者还是人,什么是好的内容,人工智能说了不算,人说了才算。
二、除了变成独立的公司实体外,小冰没什么不同
志象网:目前分拆出来的小冰团队和成员规模是怎样的?
李笛:小冰团队主体部分分拆出来,作为小冰公司的主体部分,未来还会进一步拓展。目前,小冰公司的团队规模大概有一百多人。
沈向洋在微软时就负责小冰项目,也是小冰公司的董事长,所以业务上的事宜我还是向他汇报。
沈向洋在第八代小冰发布会上
短期之内,我的工作量会比之前大,因为目前分拆工作还没有全部完成,但工作内容性质跟以前没有太大区别。
原来小冰团队所有的管理层和相关的分管人员,都是向我汇报,现在也还是一样,这是一个平移过程。从某种意义上来说,小冰不是一个新建的公司,而是一个已有的结构,最大的区别就是变成了一个独立的公司实体,除此之外没什么区别。
志象网:小冰第八代发布会上提到,Rinna(小冰的日本版)目前在日本达成了很多商业合作,除了日本外,小冰的印尼、印度、美国版目前发展状况如何?
李笛:Rinna是在中国小冰上线后的一年,也就是2015年的7月在日本上线。
目前,Rinna占日本全国的覆盖率大概在27%到28%左右,Rinna和日本软银集团的Pepper(人形机器人)有合作,并且是日本最大的唱片公司Avex的签约歌手。在日本当地的人工智能品牌排名中,Rinna能排在前三位,其他还有Siri和AlphaGo。
因为印尼受日本文化影响,而这个产品主要以本地文化为主,仅有本地语言是不够的,我们要做全球化的产品,就要做本地化。所以在印尼市场,我们采取的是由日本团队覆盖印尼本地团队,用同样的架构,做出一整套印尼语的产品。
我们这次分拆主要就是包含中国、日本和印尼业务。
小冰创作作品展/微软官网
志象网:为什么印度和美国不含在内?是发展方向上的变化吗?
李笛:主要还是精力问题,在小冰前七代的时候,我们在微软内部把小冰的框架一代一代的补全,而分拆主要是为了加速小冰在本地的发展。在产品和技术创新已经足够好的情况下,就需要很多商业和模式创新。比方说,以前在国内,我们没办法投放广告,也没有用过扫街、扫码这种非常适合本地的推广方式,建本地销售团队,就是为了加速这种发展。
但在迅速发展阶段,如果继续去管理五个国家的业务,我的压力会比较大,也不可能一下子全都吃下来,但未来可能会慢慢再去辐射。现在团队也属于一个切换状态,我们也倾向于能够专注一些。所以就先选择了在时区和文化上比较接近的亚洲的三个国家。
志象网:小冰在除日本市场外的其他海外市场的发展状况如何?小冰起初是否也针对各个海外市场的特点,做了“个性化定制”?
李笛:在国际上,文化相关的传播并不明确,我们并不知道美国人喜闻乐见的东西,美国人也不知道全世界其他地方更愿意看什么,所以还是比较本地化的。印尼也是,它是伊斯兰文化浸染很深的一个国家,文化上也很多独特的特点。
而且在各个海外市场也不仅仅是“个性化定制”的问题,从训练数据开始就必须要用本地数据,举个例子来说,小冰是以人类为蓝本去学习的,要学印度尼西亚人,不能以国际人士的身份去学,必须要用本地数据,结出本地效果。再比如,在日本冷启动阶段,我们用的是包括Twitter在内的日本几个主要数据来源,用这些数据训练出来的就是日本高中生的状态。
三、第八代小冰的新方向
志象网:这一次呼声很高的是“虚拟男友/女友”产品,当时团队怎么想到要做这样一款产品?早些一些电影、电视剧中也有类似的形式,小冰和他们一样吗?
李笛:我们的虚拟人类产品,不光关注恋情,哪怕是汽车里面的助理,也需要去建立这种友情关联。即使是一名销售,也需要这种关联。为什么最早在淘宝上流行起用“亲”来称呼用户,也是为了把公开的关系私有化。
真实的研究比艺术创作要难上太多,在电影里,人和人工智能间的对话,在沿着剧本行进。但现实生活中的交互是开放域,电影里的台词是编剧深思熟虑的结果,他是只有一个维度的封闭空间,但实际的交流是无限维度的开放域。
志象网:小冰第八代发布会上推出面向个人用户的“X套件”,为什么选择基于文本协同的X Writer、声音协同X Studio、面向虚拟人类3D演示文档驱动X Presenter这三个方向?
李笛:新产品开发是一个很传统的流程,小冰是按年度来进行迭代的框架,在推出“X套件”的前一年我们在做相关的工具,然后把相关的工具整合推出。比如说X Writer,三年前,我们就已经有小冰写诗,是以小程序或是H5的方式来进行的,我们在此基础上积累基于文本生成的协同,当时我们就在谈AI和HI,就是人工智能和人类协同的过程。我们看到用户交互的数据,以及最后被发表的数据,发现这种方式是可行的,才去拓展它。
包括声音也是,小冰声音工具已经有两年多的商用时间,按播出时长计算,在中国加日本所有电视和电台节目的制作方,我们制作的时长排前三,这说明在这方面有很强劲的需求。所以并不是我们拍脑袋决定选这几个方向拓展,这是一个长期试验的过程。
其次,人工智能只有三个领域,一是自然语言处理,对应的是文本相关的东西,还有计算机语音、计算机视觉这两个领域。这种技术也是基于人类感官交互而定的,人类感官交互也是这三种形式,再加上多模态,把这三种中的两种或两种以上结合,就产生了“X套件”。
本文来自微信公众号:志象网(ID:passagegroup),作者:刘荻青