搜索引擎正在发生一场静悄悄的变革,在平静的搜索结果页背后,巨大的浪潮在汹涌澎湃。上一次革命是Pagerank的诞生,它使得Google替代Yahoo成为搜索巨头,这次轮到了Facebook和Twitter。
在2012年底前后,Facebook、Twitter和国内的云云先后推出了基于社交数据的搜索引擎(基于新浪、腾讯等四大微博的数据源)。尽管有些巧合,但其背后隐藏的逻辑不可低估——以Pagerank(web graph)为基石的传统搜索引擎,遇到了整合了social graph社交搜索的强大挑战。
为什么说这是个强大的挑战,social graph(社交图谱或社会化搜索)将以什么方式颠覆传统搜索呢?
传统网页的信息源危机
任何搜索的基础,都是丰富的、海量的信息。当世界上的web网页足够多的时候,Google的存在才有意义。1998年的时候,网上的网站只有那么几个,掰着手指就可以数出来,这种信息匮乏的情况下,当然用不着多强大的搜索。
随着网页信息的增加,在网上寻找信息的网民分化成了两个部分:一部分网民的需求,hao123就可以满足;而更大量、更多网民的信息检索需求,列表式的网址导航无法满足,从而诞生了Google和百度。
可以说,有价值的信息在哪里,搜索的价值就在哪里。当移动互联网上产生的信息足够多、足够有价值的时候,移动搜索就顺理成章地出现;当大量有价值的信息出现在微博、Twitter上时,微博搜索出现了,社会化搜索的曙光也出现了。
我们可以做个对比:中国互联网上有网站268万个(根据第31次CNNIC报告),主流搜索引擎索引的中文网页数量为1000亿;现在有三四千万微博用户活跃,每天生产出2、3亿条微博信息。微博上一年产生的数据量,几乎等于中文互联网有史以来产生的所有数据。
如此海量的信息,产生的价值无可估量。
由于微博是每个人都可以自由产生信息,比传统网站经过编辑的信息产生效率高出一两个数量级;微博实名认证,每天有几十万个实名认证的企业、行业精英来产生内容,在很多方面比传统的互联网新闻要可靠、值得信任。比如,同样一条医疗信息,你是相信百度搜索出来的网页,还是相信协和医院医生的微博?
Social Graph凸显朋友的价值
社交数据越来越体现出来在搜索上的价值,无论是Google这样的传统搜索引擎,还是Facebook、Twitter这样的社交信息拥有者,都异曲同工的瞄准了社交搜索这个全新的领域。在国内,以云云为代表的社交搜索也顺势而起,借助社交因素来优化搜索,为用户提供更准确的搜索结果。
从技术角度来讲,Facebook、Twitter跟云云的努力方向并不一致。
例如,搜索“北京最好吃的爆肚”,Facebook是先挑选你在Facebook上的朋友,再在他们发表的信息里搜索“爆肚”;而云云则是在需要你先登录,绑定微博后获知你的微博关系,再把你的微博好友“动”过的包含“爆肚”的网页挑出来(这个“动”,意味着好友对网页进行了赞、转发等动作)。
理想状态下,两者都可以检索到想要的结果,只不过体现在搜索结果页上,一个是Facebook的一条内容,一个是普通的中文网页。(Facebook的搜索原理,仅是依据媒体报道推测,未看到产品呈现)
传统搜索是分析网页之间的关系,Facebook搜索是分析人与人之间的关系,是一种进步和趋势。加入“人”之后的搜索会更加精准、更个性化,也更有效。
Web和People的互动,将提升搜索的价值
Facebook的搜索理论上很有用,因为人跟人之间的关系(link)有价值。在搜索结果中,存在着大量并非绝对标准、仅对少部分人有意义的搜索结果:比如“小明爱吃的面包”,只对小明这个人周围的圈子——小明的爸爸、小明的妈妈、小明的朋友有意义,别人对他爱吃什么面包没兴趣。
小明的妈妈搜“好吃的面包”,实际上可能是为了找“小明爱吃什么面包”,现在的搜索引擎99%是找不到好结果的。整合了社交数据之后,搜索结果的有效性就会大幅提升。因为小明的妈妈在新浪微博上关注了小明,当她搜“好吃的面包”时,小明转发过的面包网页就会排在搜索结果前列,这样就有了一个很棒的搜索结果。
另外,单纯的搜索社交数据也是不够的。就像Facebook一样,只能搜索社交网络上的信息显得有些单薄,因为现在传统的互联网上也沉淀了大量有价值的内容,无论是Wiki(中文互联网上的百科)、问答,还是传统的论坛和社区,都有不少有用的数据。必须是网页和人的关系整合在一起,才是社会化搜索的发展方向。
关键词搜索和语义搜索的不同
在现有的搜索里,“小明爱吃的面包”和“小明 面包”是两种搜索方式。前面的语义搜索对用户更加友好,但使得搜索引擎对自然语言的处理要求更高;后一种关键词搜索是现在常用的方式,比如Google和百度搜索,大家还是更习惯于挑几个词来查询。这种查询处理起来简单,但搜索结果可能需要用户进一步的筛选,给普通用户的搜索带来困扰。
从目前报道的信息来看,Facebook的Social graph和苹果的Siri类似,都是用自然语言的语义搜索。如果这种搜索习惯在普通用户中逐渐培养起来的话,可能给Google和百度这样的传统引擎带来麻烦,比如在Google上搜“我今天下午到哪儿去喝茶会遇到漂亮姑娘”,你猜Google会给一个什么结果?