昨天(10月30日),百度举行了一次小规模的媒体开放日活动,介绍了其深度学习在最新的拍照搜索方面的应用成就。这个技术从8月20日开始,已经部署在手机百度5.5版本上。
自2013年百度公布深度学习战略以来,通过媒体的持续跟进,深度学习的一些现实应用已经广为人知。例如最普及的拍照搜索,与其他一些互联网公司仅能识别简单的书籍、CD封面不同,百度已经可以识别并检索人脸、植物、水果等形状不规则、颜色复杂、规律性不强的图像。一个应用实例是,用户对皮肤病患者的患病部位拍照并进行搜索,百度通过与数据库中的标准案例比对,能够告诉患者病情的严重程度,并给出对应医院、医生的就诊建议。据百度高级副总裁王劲透露,目前,这一拍照预诊产品的成功率已经达到93%。
但是,由于深度学习技术涉及到大量高深的数学技术和复杂的算法原理,目前在大众领域,对其的认知仍然比较零散,还停留在两端:在原理端,知道这是一种很先进的计算机技术;在实用端,知道有语音识别、图像搜索等实际用途。但深度学习对现有的计算机应用有怎样的革命性,以及这些实用技术具有怎样的商业价值,却不甚了然。
淼叔自去年6月在国内首度报道深度学习在互联网领域的应用后,一直在关注这个领域的发展,并结合《数学之美》等经典的数学-互联网-商业领域的普及书籍,试着把上面两个问题解答一下,并结合百度刚发布的第三季度财报,看看这个领域的商业价值。
深度学习的价值在于"自动化"
计算机出现对于人类最大的意义,是可以把大量重复劳动快速完成,因为论简单的运算能力,计算机的效率早就可以达到人类的数亿倍。反推过去,如果要让计算机解决什么问题,就先要把这个问题转化为可以简单计算的内容(计算次数可以充分巨大,反正能力强)。再往前推一步,一个领域的"可简单计算化",决定了它的"计算机处理化"程度也就是自动化程度,也就决定了它大规模发展的程度。
以文字内容为例。早期在互联网上,人们需要人工识别网页的内容,并以此分类,提供给用户搜索。这样效率就很低,在网页数量高速增长后,搜索行业就拖了后腿。在TF-IDF算法出现后,计算机可以自动提取一篇文章内容的关键字,网页的归类实现了自动化,再配合上Google发明的Page Rank算法,使网页的优先排序也自动化了,整个文字世界被成功数字化,这才有了互联网对媒体行业的颠覆性大发展。同时,IDF算法能成功识别出网页的关键内容,使搜索引擎可以为它匹配上高度相关的广告,实现了商业链条的闭环。
但是,文字只是人类世界的一小部分。在可感知的领域中,声音、图像都占据有更大的数据量,也是更为直观、人口基数更大的信息交流方式。目前,在这个领域,像手工给文字网页分类一样,人们依然使用人工分类的方式进行信息索引、查找与再利用。这实际上是把声音、图像都先文字化,而文字内容已经互联网化,所以才能用互联网的方式处理那些多媒体内容。
这里的"人工分类",粗略地说,在大数据领域,就相当于"打标签",用文字标注出多媒体内容的属性。我们一开始就说了,整个链条中只要涉及人工,效率必然被拖后腿。这也是大数据领域现在的难题,因为总少不了人工打标签这个环节。
说到这里就可以看出深度学习的重要意义了:深度学习的最大特点,就是把一个复杂的认知问题分解为几层简单问题,通过对简单问题的大运算量处理,得出规律,进入下一"层",逐层运算处理,直到触达事物本质。举个比较粗略的例子,在人工分类时,对于一朵花,人们需要手工打上一些标签:粉红色,分为六个均等的部分(花瓣),中间有柱状蕊,常与绿色一起出现,等等。当输入一张花的图片时,计算机与这几个标签比对,都对上了,就输出结果:这是一朵花。商业价值拓展则是配上广告,哪里可以买到花,买到花盆,买到养花的书,找到跟你一样喜欢养花的单身女性,等等。
整个过程的短板在人工打标签的阶段。而在深度学习层面,它不需要人类去打标签,只要给它输入一百万张花的图片,它会自动逐层寻找共同特征,归纳出标签,最后再去跟同类图片比对,验证这些标签,完成认识过程。有人可能说你这100万张图片还不是要人工拍摄、输入?那倒还真未必,拿一个摄像头对准一盆花自动拍不就得了,如果想增加点全面性,那就把花盆放在自动旋转台上,旁边再放个电风扇让它摇曳多姿,这样可以保证系统获得尽量多样化的图片。
移动时代的价值确立
所以我们回到百度的案例来,就可以看到深度学习的巨大商业价值。它解决了搜索引擎在处理多媒体信息方面的弱项,把他们转化为已经具有成熟技术和商业模式的文字信息。同时,由于多媒体信息相对于文字信息在数量级上的庞大,这部分的商业真空也同样巨大。更为重要的是,文字搜索更多的是一种PC时代的习惯,移动互联网时代,由于文字输入的瓶颈和手机拍摄/语音功能的完善,语音、图片搜索的比例将大幅度提升甚至成为主流。根据李彦宏披露,百度现在已经有10%的搜索请求来自于语音,而未来五年内,语音、图像搜索将驱动一半以上的搜索请求。
这也是百度重兵投入深度学习的战略意图。打仗的根本要诀是要在熟悉的战场、以擅长的战术决战;而深度学习可以把世间万物近似全自动地数字化为百度已经建立的文字搜索模式,又使使用场景和商业空间数以百倍计地增长,而需要的又是百度最为擅长的技术研发能力,所以当然要全力以赴。同时,深度学习又是一个需要大量技术积累的领域,这使得它成为百度移动互联网时代最可依赖的技术门槛。
在三季报发布前一个月上线拍照搜索、三季报发布日附近又将手机百度升级到更强化拍照搜索和身边商务的6.0版,都是为了强化百度以深度学习技术驱动的移动互联网战略。而在本年第三季度中,百度首度出现了移动流量超越PC流量的现象,移动营收在总营收中占比也达到了创纪录的36%。这种增长,不仅仅是PC端流量的简单迁移,而是语音、图像搜索等更具移动特色的搜索需求开拓出了新的场景,也带来了新的变现途径。所以,除了移动流量和营收比例增长外,百度总营收也同比增加了52%。
对于移动互联网,越来越主流的声音认为,它不是桌面互联网的继续延伸,而是平级于互联网革命的又一场革命。仅仅在信息处理领域,我们已经看到语音、图像对于文字的颠覆,也看到了成熟商业模式的曙光。而驱动这一切发生的,依然是生生不息的技术创新。
作者阳淼为山寨发布会创始人,他将在微信公众号"山寨发布会"上更新他的最新观察,新浪微博@阳淼,私信开放。