本文摘自阿里巴巴集团副总裁、数据委员会会长车品觉的新书《决战大数据》中的一章。本章着重探讨了大数据与商业决策之间的关系、乃至处理步骤。
今天,我们正处于决策成本产生巨变的爆发点,过去那些想尽办法都无法获取的数据,在今天唾手可得,而当有些表面上完全不相关的行业数据关联起来时,居然产生了新的商业价值。更重要的是,过去,我们更多地是带着问题去寻找能够验证自己观点的数据,而今天我们却可以使用数据去预测可能出现的问题。海量数据可以使人的智慧得到更大的发挥,并变得更加规模化。大数据的本质是人,数据研究的极点就是莫测的人性。我们一旦掌控了数据之后的数据,就会拥有制胜未来商业的无敌利器。
假定数据是脏的
在处理数据的时候,会像污水处理厂一样,每一步都问自己要如何处理这些污水。这种情况的出现,到底是因为数据源脏了,还是因为数据提炼过程做得不好?
美国有一家初创公司,专注于与地理位置相关的数据收集、整理和查询服务。它将地理位置的相关指标,按照酒店和旅馆等属性划分为不同细类,对外提供基于位置信息的实时查询,为包括美国最大点评网 Yelp在内的多个知名应用提供底层数据服务。
这家公司最令人印象深刻的是,它对于所收集来的数据会提供一个数据质量评分,以反映数据的可信度和质量水平。它会对这些数据的源头以及对处理数据阶段所用的算法进行评分。也就是说,这家公司在提炼数据的每一个阶段都进行了数据化管理。
这家公司的做法让我们看到了一个趋势,也是一个非常重要的趋势。因为它首先已经接受了数据源肯定是脏的和数据源一定会被污染的事实。所以,它在处理数据的时候,会像污水处理厂一样,每一步都问自己要如何处理这些污水。这种情况的出现,到底是因为数据源脏了,还是因为数据提炼过程做得不好?这个过程我们一定要区分,而且这样的区分是可取的。这家公司是假定数据是“脏”的来做数据管理,而不是假定数据是稳定的。而且,假定数据是“脏”的来处理数据,在大数据时代将是一个非常重要的趋势。
事实上,我们今天在处理的大数据,依然只是冰山一角,而更大的数据都隐藏在我们的语言中,比如我们说的话和写的字。所以,将来我们要准确地从互动中抓取数据,也一定要依赖对自然语言的处理。现在,美国的很多数据研究人员都在瞄准非结构性数据,即语言处理这一领域。
学会慢慢淡化数据
数据是有优先值的,在数据中有些是特别核心的,有些即使缺失了也没有多大问题。所以,我们要学会真正坐下来盘点那些对公司最有价值、对用户最有价值的数据。
想要确定数据的优先值,就要先解决以下几个问题。一是数据的标准化。在大数据时代,我们需要一个标准化的东西供我们进行交流。二是我们到底如何对接和交换数据,如何在交换的时候保持数据的稳定性。比如自然语言,比如在无线和 PC不同场景下受到的影响,这些情况都会滋生出许多新问题。
第三个重要的问题是数据的存储,这将涉及数据的时效性这一问题。有人曾经提出过一个很有价值的观点,即现实中,网站最大的场景变化就是网站改版。因为重新设计网站,本身就影响数据,比如公司的详情页和首页,任何改变都在影响数据。如果在 1~3年后,你才说得出数据的这一改变是由于促销、用户行为或是改版引起的,那这一数据就已经没有任何价值了,这就是数据的时效性。
所以,美国出现了一个概念叫数据淡化( Data Decay),意思很明显,数据会慢慢淡化。我们要更清楚地认识到,数据是有优先值的,在数据中有些是特别核心的,有些即使缺失了也没有多大问题。所以我们要学会真正坐下来盘点那些对公司最有价值、对用户最有价值的数据,这是一个非常重要的趋势。
数据的标签化管理
数据的属性标签是人类经验判断的数据,是数据后的数据。
数据的属性标签是人类经验判断的数据,是数据后的数据。例如,当你要为一件物品打上标签时,其实就已经动用了你的经验数据分析,并进行了归纳总结,结合当下的环境给出了判断。如果没有考虑环境的影响及准确性的评估,这种经验加上直觉的判断是不稳定且又难以解释的。但从数据收集的角度去看,数据的属性标签又是一个潜力极大的数据。
在数据属性的管理上,对于用户来说,每个人身上贴的标签都是多种多样的,但是对于企业来说,如何将这些标签归一,如何用一个点去将之串联,又如何把这些点连起来去描述这个用户,这才是核心问题。
比如说,你要去应聘一家公司, A公司对你的评价是“很可靠”, B公司对你的评价是“不可靠”,而 C公司准备雇用你,然后 C公司看到了 A公司和 B公司给你贴的两个标签:“可靠”和“不可靠”,它就会困惑。
这样的问题常常发生,那么,我们要怎么去做标签的管理呢?
首先,我们要明确的是,“可靠”这个概念是没有标准化意义的,除非在定义标签之前,我们就界定清楚这个“可靠”的标准是什么。否则,“可靠”的标准是准时还钱、说话算数,还是他向来都很守时,我们就无从得知了。如果这些标准是“可靠”,就给予了我们一种可以还原数据的能力。所以,在属性管理中,假如属性是“×”,那么我们一定要定义清楚什么是“×”,在没有清楚定义的情况下,这个数据的属性是毫无价值的,而且,将来你也依然不知道怎么使用这一数据。
标签在观察之后加进平台和直接加进去是不一样的。在电商平台中,就有一些标签是在观察后加进去的,如果由卖家自由地加标签进去,必然会造成混乱。所以,标签的属性管理,在运营数据中非常重要。
标签化管理,是一个非常重要的趋势。电商企业今天面对的一些问题在美国的电商企业中同样存在,可见,我们发现的问题,别人也在面对,不过这些问题并不需要现在就去解决。
属性管理的层级化十分有必要,但是在使用数据前,必须要了解数据的场景、数据是如何放进去的和数据的场景是什么。在这一切未知之前,就说数据如何好用的话,是不可能的。所以,现在企业运营数据的趋势是,我们应该找出一些属性进行归类,然后再慢慢地考虑如何提炼,这对于未来非常重要。
重要的是数据和数据之间的关系,而不是数据本身
大数据价值的实现,在于数据与数据的连接。
Google做了一件非常惊人的事情 —— Google甚至能在不明白某个网页语言的情况下,知道其内容是什么。试想一下,如果你懂俄语,看出俄语网页里在讲什么当然很简单。但是,如果你仅仅通过看字词的排列和网站的分类,就知道网页的内容,这是不是很令人惊叹?
这就是知识图谱,它是一个无穷无尽的世界。事实上,知识图谱并不是数据,而是数据和数据之间的关系。但这里有一个非常大的弊端,就是数据的储藏量非常大、储存的方法也很复杂,且稍微改变一点点关系的定义,整体就会产生巨大的变化。
比如说,有一个知识图谱在说电商平台用户之间的关系,那数据信息就非常庞大了。试想一下,今天电商平台里有多少个用户跟你有关系?假如说有 25个人,那么 25个人的关系就演变成了 25×25条关系。这时候,我再问你“什么是关系”、“见过就算关系,还是一起买过东西叫关系”的问题就具备了一定的难度。
关系建立的维度是无限大的,而且定义稍微改变一下,整个存储和整个数据库都会发生变化。所以,知识图谱的把控是有难度的。举个贴近我们生活的例子,比如说银行很早之前就给你开办了信用卡,决定银行这一决策的不是你的个人关系而是总关系。银行决定是否贷款给你,是要看你爱人做什么职业以及你家中其他人的经济情况如何。当这种种关系关联起来时,就会产生一个极为重要的知识图谱。
以往我们谈大数据时候的本钱,莫过于“我有这种数据,你没有”。在未来,数据和数据之间的关系才是重中之重,而不是单纯的数据本身。
数据的实时化与实时性分层
我们千万不要把所有的能力都用来处理实时化的问题,因为我们依然会有大量的数据需要在恰当的时机(Right Time)处理,有的数据是重要的,但不紧急。
以上讲到的很多内容都是关于数据收集和管理层面的,而在数据的处理上,我在 LinkedIn上看到了一个很有趣且有价值的做法。 LinkedIn在处理数据时,会把公司的数据服务分为几层,一方面是紧迫度,另一方面是重要不重要。比如,它会把数据分为“快数据紧急”、“快数据不紧急”和“慢数据重要”等。
我觉得对数据实时性分层的做法是合理的,而有人觉得数据的实时化处理是趋势,但是我持有一定的怀疑态度。 Real Time是“实时”,Right Time是“恰当的时机”。但是,据我看来,数据处理不一定要实时。比如,我们常见的情况是,每家公司都有财务的相关数据,这类数据的处理都是“ T+1”,意思是你想要的数据在第二天才可以拿到。因为在其他数据没有到位的情况下,数据实时化的价值也不大。
但是,换个场景来看,银行若要判断某个人的信用卡是否被盗用,那么肯定要对之进行实时化处理。数据的实时化,让我们从商业的角度去认知数据,值得注意的是,在具备了实时化的数据处理能力后,很多以前不能解决的场景开始变得能够解决。在未来的某一天,编码的工程师能够在编码时直接写上“如果一个三天前只浏览未购买的客户回来了,我要不要给他一个两元钱的红包”。这个程序是完全编好的,用户登录本身就成了一个实时标签,快速的运算会让每个网站都具备最强的时效性。
我们再换一个角度来思考,如今手机、电视、游戏机和 PC等多屏运作的时代下,作为一个网站,有多大的能力在非常快速的情况下,让自身在非常小的时间点里抓住消费者,卖出产品,这种实时的能力会在未来的商业中变得越来越重要。
一个网站必须要让自己的实时能力更高,甚至用户接下来的每一步你都应该猜到,但我们千万不要把所有的能力都用在处理实时化上,因为依然会有大量的数据需要在恰当的时机( Right Time)处理,有的数据是重要的,但不紧急。
未来是人机的结合体
人和机器的结合,或者人和数据的结合将是未来的一种进步模式,人类将通过数据变得更加智能。
很多人会问,大数据目前发展到什么阶段了?我的答案是——水分太多的阶段。但毋庸置疑,大数据已经极大地影响了我们的社会,但还远远没有达到它的爆发点。因为有了大数据,人的经验开始和数据结合,两者相互激活,让人的智慧得到了规模化地放大,这也使得整个社会开始伴随着数据的发展产生巨大的改变。但是,在大数据的使用上,未来的发展空间注定会比现在取得的成绩更加宏大,“数据化运营”和“运营数据”这个数据与人之间的闭环系统也会越来越完善,人机结合仍然有巨大的空间让我们去挖掘。
未来,数据的种类将超出我们的想象。以前的数据更多集中在外部行为的监控上,不论是网络购买行为,还是网上社交行为,都是用户在“远距离”提供数据,即便这样,我们仍然还没有运用好这些数据。随着可穿戴式设备的出现,数据和人将真正融为一体,类似谷歌眼镜这样的设备,将让我们看到的东西即时数据化;类似健康手环类设备和可以深度收集脑电波数据的设备,将随时会使我们人体的活动转化成数据。目前,记录睡眠状况只是其初步的应用,在不远的未来,用数据记录我们每一秒钟的生活也将成为可能。
当万物皆数据的时刻到来时,商业发展的更多新机会将会出现,数据将会帮助我们更好地做出判断,比如,什么时候最适合吃饭、什么时候身体疲惫适合睡觉和什么时候记忆力最好等,这些都能通过数据来进行预判。甚至于,当记录了人的足够数据之后,数据就可能告诉我们此时此刻应该做些什么及最佳的策略。也许在那时,决定人是否聪明的指标,已经不是 IQ,而是是否拥有足够优质的数据。
人和机器的结合,或者人和数据的结合将是未来的一种进步模式,人类将通过数据变得更加智能。
最后我想用两句话来总结:
当下,我们要学会人机分工,让人做人最擅长的事情,让机器做机器最擅长的事情;
未来,我们要相信人机结合,人机的界线已经模糊,无人驾驶汽车已经变成可能。未来人类的身上流动着的是血液以及数据。
忽略了趋势,过去的价值一文不值
我们通常都认为,经验应该是越多越好。一个有经验的人总是更能够在很多事情上做出正确的判断,因为积累使然。但事实上,我们发现,有时候经验越多,似乎越容易让人犯一些低级错误。这就好像,你会发觉往往天天研究彩票和股票的人总是发不了大财,而往往是一个菜鸟莫名其妙地就中了大奖和买了一只牛股。
为什么经验有时会使人犯低级错误呢?在这里,我们应该将其分成两种情况来看待:一种是信息不对称;另一种则是逻辑错误。
当我们讨论信息的不对称时,首先要讲的就是经验。经验是对过去的度量,但不是所有经验信息的质量都很好。在经验的数据库里,肯定有一些信息是正确的,有一些是错误的。当经验中混有很多噪音干扰时,我们会跟随错误的经验做出判断,此时,我们就会发现自己变笨了。
比如,在使用没有评估过的经验时,你用 A方案获得了成功,用 B方案却失败了,而且在评估的过程中也不是单纯的 0或1,而是用 0~1的范围来度量的。说到这个,就要提到数据分析师了。一般而言,数据分析师对于信息是很有洁癖的,也就是在对于经验的累积上,他们对质量把控得十分严格,如对于数据信息的排序、分析可靠的信息源进行多次使用、了解信息的出处和知道信息的提供者等。根据这些,数据分析师在它们的辅助下做出了决定。这意味着,你所有的信息来源都需要有正确的途径和渠道,不然,这个决策也会出现偏差。
除此之外,还有一个因素导致经验使人变笨,那就是在分析时忽略了趋势,这个道理可以用赛马的故事来举证。
在香港,你经常会发现拿着一大堆材料的人会分析马匹的数据。比如,有人会根据一匹马进行 1 200米跑的时间,来计算它未来可能跑完全程所需要的时间。但我们发现,还是有很多人因算错导致赌马失败。为什么呢?因为历史数据和我们今天面对的情况中出现了一些假象。香港大多数赌马的人,他们最终收集到的数据都是受到影响的,而不是经过清洗的,当然是不准确的。每一个赌马的人都在看过去的数据——马会会给每一个赌马者提供前三场赛马的数据,大家只会关注这个结果,而不会去关注赛马当天发生了什么。如果是我,则会去回看录像,就可能发现其他的情况。比如,如果这匹马本来想发力,但前面有马匹挡住了它,它才被扣除了两秒钟;或者骑师扬鞭,鞭子掉了,扣除 5秒钟;再或者有些马发脾气偏离跑道,也要扣除秒数。当排除所有意外算出的时间,就是干净的、没有影响因素的真正经验了。这时候,我们得到的第 1~3名的数据和最终比赛结束公布出来的第 1~3名的数据就会不一样。
除此之外,还要观察有关赛马成长的趋势问题。事实上,在每一场赛马里都会出现很多意外,如果这些意外都不出现,也会直接导致结果的不同。因为每匹马幼年和成年的状态是完全不同的,因此它的数据价值评估也是不一样的。一匹马 3~4岁等同于我们人类 18~25岁,体能上会出现非常大的变化;又或者,年幼的马匹对于骑士的体重非常敏感,多 1~2磅就会有非常大的影响,但长到 5岁后,负重对其的影响则会慢慢降低,这就是硬趋势。即便有很多过往经验的数据都不能很好地匹配今天你要做的事情时,意味着经验需要将数据进行清洗——把当天的影响因素都找出来,并还原,这时候得到的数据才是正确的经验。
结论就是,经验使人变笨的原因在于你之前的经验本身就存在误差,即数据源本身就存在问题,而这种误差一般人看不出来。因此,在过去的经验积累本身就有问题的情况下,根据经验得出的结论自然会使人犯低级错误。
你永远不要假定这个世界是真空的,所以你还需要多多观察频繁出现的新数据。当有新的数据出现时,以往的经验就需要重新做评估了。