在《大数据时代》中,迈尔-舍恩伯格告诉我们大数据时代的第一大特征就是“不是随机样本,而是全体数据”。我们在上篇通过分析“北京地区吃过麦当劳的人数”这样一个最简单的信息需求,说明即使在大数据时代,随机样本分析也是必不可少的,因为现实中并不是对每个问题研究都具备一个可用的全体数据。
本文专门谈论所谓全体数据,为大家揭开全体数据的神秘面纱。
何为全体数据?
在《大数据时代》一书中,全体数据是与随机样本相对立的概念。迈尔大叔这样描述道:“首先,要分析与某事相关的所有数据,而不是依靠分析少量的数据样本。”因而,全体数据明白无误地就是“所有的相关数据”。
如果我们想要知道“北京地区有多少人吃过麦当劳”,这个全体数据就应该是北京地区所有人吃麦当劳的情况。很遗憾,我们知道这个全体数据是不存在的。
&">nbsp; 看看《大数据时代》书中全体数据的一个案例:艾伯特-拉斯洛·巴拉巴西和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。
迈尔大叔的这个全体数据是“一个为全美五分之一人口提供服务的无线运营商提供的”“四个月内所有的移动通信记录”。啥意思?说白了,就是一家移动公司四个月的通信记录。令人不解的是,虽然这仅仅是全美1/5人口四个月的通信记录,迈尔大叔却说“这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。”
“全社会”与“全美1/5人口”,“样本=总体”与“四个月内所有的移动通信记录”,其间如何联系在一起?
还有,如果四个月的数据是全体数据,那三个月或者两个月的数据算不算全体数据呢?
看来貌似简单的全体数据,在迈尔大叔这里也不是那么简单。
全体数据的前世今生
上面案例中涉及的全体数据,实质上就是一家移动运营商数据库中四个月的通信数据。从《大数据时代》中对全体数据的诸多应用可以看到,迈尔大叔所说的全体数据,实际上就是我们通常所说的数据库数据。
“全体”或许只是指包含了数据库中所有的记录。
即使在互联网流行之前,因为有了计算机以及数据库技术,人类已经开始数据的记录和累积。特别是一些特殊的行业如银行、电信等,顾客的购买记录最先被完整地记录下来,从而构成了迈尔大叔所谓的全体数据。
这绝对是小数据时代的故事。也就是说,所谓全体数据并不是大数据时代的产物,全体数据在小数据时代就已经普遍存在了。
对所谓全体数据的分析以及基本的统计分析方法也是小数据时代的普遍现象。
被人们津津乐道的食品超市啤酒搭着尿布一起卖的故事,其数据来源甚至可能都不是所谓全体数据,因为食品超市并没有强求每个消费者都要注册后才能购买。
全体数据并不是我们想象的那样是“所有的数据”,甚至也不是迈尔大叔想象的那样是“所有相关的数据”。全体数据依旧是部分数据,比如说只包含了一家公司的顾客数据。全体数据依旧是取样数据,比如说上面案列中的四个月的取样。
谁说取样必须只是随机取样呢?
全体数据的分析误差
迈尔大叔对随机样本生气的一个主要原因,就是基于随机取样的分析与真实情况有统计误差,不准确。那么,有了全体数据,我们的分析结果就一定没有误差了吗?
假定我们确实有关于北京地区吃麦当劳的全体数据。是的,如果有了所谓的全体数据,关于单个变量的分析结果确实没有统计上的误差,实际上此分析也根本用不到统计学的概念。可是,我们花那么大精力搞一个全体数据,肯定不只是计算一些百分比,或者进行一些简单的单元分析。我们要用这个全体数据来做更多的事,比如说预测哪些顾客下次来会购买巨无霸。分析师会给我们一批顾客名单,告诉我们:这些顾客75%的可能下次购买巨无霸。
75%的可能?也就是说这个顾客还有25%的可能下次不买巨无霸。这就是分析误差。
事实是,除了单个变量的计算(对全体数据来说不是统计分析),全体数据在做任何统计分析时,分析结果都是概率性的,都有统计意义上的误差。
可是《大数据时代》给读者的印象是,只要用了全体数据,你就不用再担心误差了。
全体数据的取样
根据《大数据时代》,用了全体数据,我们就再也不需要取样了。事实果然如此吗?
有意思的是,在上面迈尔大叔给我们提供的全体数据分析的案例里,研究人员只取了数据库里4个月的数据。为什么只是4个月的数据?难道该企业的数据库只有4个月的数据?
当然不是!
事实应该是研究人员从企业的数据库里之取样了四个月的数据。那么,为什么即使有了“全体数据”,研究人员还只取了其中四个月的数据?
因为对数据分析来说,绝对不是数据越多越好。即使我们拥有无与伦比的计算速度,但是过多的数据也会浪费研究人员的时间资源,不必要的数据甚至可能影响分析的结果。何况根据迈尔大叔的介绍,4个月的数据取样已足以得到满意的研究结果了。
看来有了全体数据,也有必要进行数据取样。
《大数据时代》将随机样本与数据库数据对立起来,并且作为大数据时代的一个最显著的特征,这是十分令人难以理解的。而且为了表明与随机样本的对立,将数据库数据称为全体数据,也是不科学的,甚至是危险的。请关注我对所谓全体数据的进一步分析。