在《大数据时代》一书中,迈尔-舍恩伯格给出了著名的关于大数据时代的三大特征:1)不是随机样本,而是全体数据;2)不是精准性,而是混杂性;3)不是因果关系,而是相关关系。本文解读一把为什么“不是随机样本,而是全体数据”。
为什么是随机样本?
首先什么是随机样本。如果你碰巧哪天在街头被人拦住做问卷调查,或者接到电话问卷调查,恭喜你,你成为某项统计分析的随机样本。
很显然,迈尔大叔所例举的美国人口普查以及有关细分领域分析预测不准确的例子,谈到的随机样本应该就是指问卷调查。或许随机样本是迈尔大叔在书中唯一展示其有关统计学知识的部分。
那么,为什么要用随机样本呢?原因有下:一是全体数据获取不可能或者成本太高。比如说你想知道北京有多少人吃过麦当劳,你不可能每个人都问一遍;二是有资源限制。如果你要在3天内给出答案,即使不计成本你也做不到去问每个人;三是没有必要。因为我们可能只是需要知道吃过麦当劳的人数在北京总人口中的百分比,而且允许一定的误差,所以只要随机取样,通过统计分析就能够得到比较满意的答案。
根据统计学原理,如果我们随机取样1000人进行问卷调查,如果结果是某种百分比,那么得到的结果在置信度90%时的误差应该在3%左右。
显然,在数据需要通过问卷调查的形式获取时,随机样本就成为我们的首选甚至是唯一的选择。
所以随机样本在小数据时代很流行。
为什么不是随机样本?
迈尔大叔对随机样本不高兴,原因有三:1)实现采样的随机性非常困难;2)当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了;3)人们只能从采样数据中得出事先设计好的问题的结果。
白话一把迈尔大叔的内容。1)样本难以真正随机是因为你无法根据全体数据的分布去取样。比如说你电话调查,有电话的人口就已经不是随机的样本空间;2)如果你要进一步知道海淀区30岁以下女性吃过麦当劳的人口比例,结果误差就会超过预期;3)问卷以外的内容你是无知的。比如说你突然想要知道吃过麦当劳的人中有多少同时吃过肯德基但你却没有在调查中问这个问题,那你就甭想得到答案。
全体数据在哪儿?
我们已经处在大数据时代,如果你要了解北京有多少人吃过麦当劳,你会怎么做?
显然,麦当劳童鞋并没有为我们准备好必要的所谓全体数据。或许麦当劳能够告诉我们N多年来他们在北京地区卖出了多少个巨无霸,或许麦当劳会进一步告诉我们N多年来北京地区有多少人次光顾过麦当劳。可是,麦当劳却没有数据告诉我们现而今北京人有多少人吃过麦当劳。
看来现实世界比迈尔大叔想象的要复杂得多。告别随机样本,我们需要全体数据。可是,我们所需的北京地区吃麦当劳的全体数据存在吗?
未来这个全体数据会存在吗?也许,除非麦当劳必须先注册再购买。你认为麦当劳何时会实现先注册再购买呢?这样做真的有必要吗?
即使如此,你仍旧面临如何解决例如“究竟谁吃了全家桶”的问题。
全体数据是个抽象的概念。但涉及到具体问题,所需的全体数据很有可能并不存在,即使是在大数据时代。
要知道北京多少人吃过麦当劳,可能还是需要进行随机样本分析,哪怕是在大数据时代的今天。
看来即使是在大数据时代,我们还是无法告别随机样本分析。
何为全体数据?
在《大数据时代》一书中,全体数据是与随机样本相对立的概念。迈尔大叔这样描述道:“首先,要分析与某事相关的所有数据,而不是依靠分析少量的数据样本。”因而,全体数据明白无误地就是“所有的相关数据”。
如果我们想要知道“北京地区有多少人吃过麦当劳”,这个全体数据就应该是北京地区所有人吃麦当劳的情况。很遗憾,我们知道这个全体数据是不存在的。
看看《大数据时代》书中全体数据的一个案例:艾伯特-拉斯洛·巴拉巴西和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。
迈尔大叔的这个全体数据是“一个为全美五分之一人口提供服务的无线运营商提供的”“四个月内所有的移动通信记录”。啥意思?说白了,就是一家移动公司四个月的通信记录。令人不解的是,虽然这仅仅是全美1/5人口四个月的通信记录,迈尔大叔却说“这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。”
“全社会”与“全美1/5人口”,“样本=总体”与“四个月内所有的移动通信记录”,其间如何联系在一起?
还有,如果四个月的数据是全体数据,那三个月或者两个月的数据算不算全体数据呢?
看来貌似简单的全体数据,在迈尔大叔这里也不是那么简单。
全体数据的前世今生
上面案例中涉及的全体数据,实质上就是一家移动运营商数据库中四个月的通信数据。从《大数据时代》中对全体数据的诸多应用可以看到,迈尔大叔所说的全体数据,实际上就是我们通常所说的数据库数据。
“全体”或许只是指包含了数据库中所有的记录。
即使在互联网流行之前,因为有了计算机以及数据库技术,人类已经开始数据的记录和累积。特别是一些特殊的行业如银行、电信等,顾客的购买记录最先被完整地记录下来,从而构成了迈尔大叔所谓的全体数据。
这绝对是小数据时代的故事。也就是说,所谓全体数据并不是大数据时代的产物,全体数据在小数据时代就已经普遍存在了。
对所谓全体数据的分析以及基本的统计分析方法也是小数据时代的普遍现象。
被人们津津乐道的食品超市啤酒搭着尿布一起卖的故事,其数据来源甚至可能都不是所谓全体数据,因为食品超市并没有强求每个消费者都要注册后才能购买。
全体数据并不是我们想象的那样是“所有的数据”,甚至也不是迈尔大叔想象的那样是“所有相关的数据”。全体数据依旧是部分数据,比如说只包含了一家公司的顾客数据。全体数据依旧是取样数据,比如说上面案列中的四个月的取样。
谁说取样必须只是随机取样呢?
全体数据的分析误差
迈尔大叔对随机样本生气的一个主要原因,就是基于随机取样的分析与真实情况有统计误差,不准确。那么,有了全体数据,我们的分析结果就一定没有误差了吗?
假定我们确实有关于北京地区吃麦当劳的全体数据。是的,如果有了所谓的全体数据,关于单个变量的分析结果确实没有统计上的误差,实际上此分析也根本用不到统计学的概念。可是,我们花那么大精力搞一个全体数据,肯定不只是计算一些百分比,或者进行一些简单的单元分析。我们要用这个全体数据来做更多的事,比如说预测哪些顾客下次来会购买巨无霸。分析师会给我们一批顾客名单,告诉我们:这些顾客75%的可能下次购买巨无霸。
75%的可能?也就是说这个顾客还有25%的可能下次不买巨无霸。这就是分析误差。
事实是,除了单个变量的计算(对全体数据来说不是统计分析),全体数据在做任何统计分析时,分析结果都是概率性的,都有统计意义上的误差。
可是《大数据时代》给读者的印象是,只要用了全体数据,你就不用再担心误差了。
全体数据的取样
根据《大数据时代》,用了全体数据,我们就再也不需要取样了。事实果然如此吗?
有意思的是,在上面迈尔大叔给我们提供的全体数据分析的案例里,研究人员只取了数据库里4个月的数据。为什么只是4个月的数据?难道该企业的数据库只有4个月的数据?
当然不是!事实应该是研究人员从企业的数据库里之取样了四个月的数据。那么,为什么即使有了“全体数据”,研究人员还只取了其中四个月的数据?
因为对数据分析来说,绝对不是数据越多越好。即使我们拥有无与伦比的计算速度,过多的数据也会浪费研究人员的时间资源,不必要的数据甚至可能影响分析的结果。何况根据迈尔大叔的介绍,4个月的数据取样已足以得到满意的研究结果了。
看来有了全体数据,也有必要进行数据取样。
更多关于全体数据的取样
就上篇文章中迈尔大叔所举的那个全体数据的例子来说,分析人员只取了数据库中四个月的数据进行分析。为什么?因为分析的任务不是要得到数据库中每个顾客长期的人脉关系,而是通过一定时期内人际关系的分析,了解拥有不同人际关系的个人对整个社区关系网的影响。因此,适当的阶段性数据的取样就十分必要。
试想一下,如果研究人员采用了数据库中所有的数据,则可能将更多的人际关系发展的变化也包括进来,这反倒可能影响研究的结果。所以说,全体数据不加区别的应用并不一定是最佳的选择。
再举一个对全体数据进行取样分析的例子。早年我曾经做过一个搜索引擎算法分析的应用,原理就是根据随机取样的关键词,到各大搜索引擎(美国的)上去爬取搜索结果的网页,分析各种SEO技术对各搜索引擎网页排名的影响。时间长了,我所爬取的网页数据库也就成了迈尔大叔所谓的全体数据。我是不是应该每次分析时都使用所有的数据呢?当然不是。因为搜索引擎在不断改变其搜索排名的算法,如果我将已经过时的排名网页信息包括在我的搜索引擎排名关键因素的分析中,那就会适得其反导致分析结果的不准确。
迈尔大叔数次提起的有关飞机票价预测的数据分析,也存在着同样的情况。航空公司可能会改变其机票价格的决定机制。如果在票价预测分析中包含了已经过时的票价决定机制的信息,那分析的结果就会受到干扰而增加误差。
数据并非绝对越多越好。即使是全体数据,也要根据分析任务进行必要的取样。原因可能是多种,适当的取样是优化分析过程和分析结果的一种选择。而且,取样也不只限于随机取样。
全体数据的陷阱
第一个陷阱就是所谓全体数据,在绝大多数情况下并不是“全体”。我们来看看那些绝对重量级的互联网企业,它们最可能拥有所谓全体数据,比如说谷歌、百度、FACEBOOK、淘宝天猫,哪个公司的数据库能够被称为“全体”呢?
一个企业有了数据库,往往更愿意局限于自己的数据库来进行各种分析。有句老话叫做“种瓜得瓜种豆得豆”。这个全体数据分析的陷阱就是:如果你种的是瓜,你就分析不出豆来。
例如某新闻网站经常用很黄很暴力的新闻吸引网友下载它的新闻app。久而久之,其app的用户就可能是“黄衫军”了。如果这时你想通过这个“全体数据”的分析了解怎样在他们中间推销红汗衫,肯定是不妥的。
再举一个简单的例子。比如说你通过对全体数据的分析,得出某款商品是你顾客最喜欢的。但实际情况果真如此吗?或许顾客喜欢的商品根本就不在你的全体数据里,所以你再怎么分析也根本得不到你的顾客最喜欢什么样的商品。
外面的世界很精彩。你经常需要跳出全体数据,来体验外面世界的精彩。
全体数据与随机样本
随机样本与所谓的全体数据应该属于两个不同范畴的概念,两者并非杨白劳Vs黄世仁,阶级斗争不可调和。更重要的是,无论是随机样本,还是所谓的全体数据分析,都不应该是一个时代的代表。
事实是,即使拥有全体数据,随机取样的问卷调查分析也是需要的,甚至是必须的。
因为全体数据几乎都不是什么真正的“全体”数据,不可能包含所有我们想了解的信息,所以经常需要在全体数据的基础上获得更多的信息。其中一种来源是与其他“全体数据”对接,比如说在美国可以根据个人社会保险号对接个人信用信息;另一种方法就是在“全体数据”中随机(或用其他方法)选取部分样本,然后对这些顾客进行问卷调查,以补充数据库中缺失的信息,然后通过对接将问卷调查的信息融入到全体数据的分析中。
这样的分析迈尔大叔应该没有听说过,否则他就不会将随机样本与全体数据这样绝对地对立起来。但这样的分析却在小数据时代就被普遍应用了。
文章最后对随机样本和所谓全体数据做个总结:
1)迈尔大叔所谓的全体数据,在绝大多数情况下只是指企业的数据库数据;
2)对绝大多数问题,所谓的全体数据可能都不存在;
3)随机样本与所谓全体数据并不是你死我活的绝对对立,而是可以和平共处,甚至是相互补充;
4)绝大多数所谓对全体数据的分析方法,早在小数据时代就已经普遍存在;
5)随机样本分析在大数据时代也还会继续展示其存在价值;
6)即使是所谓的全体数据,往往也有必要通过取样进行更有效的分析;
7)注意全体数据的陷阱。分析所谓全体数据时,应该想到外面世界可能更精彩。
(责任编辑:蒙遗善)