揭开全体数据的神秘面纱(上)--疑读《大数据时代》(三)

在《大数据时代》中,迈尔-舍恩伯格告诉我们大数据时代的第一大特征就是“不是随机样本,而是全体数据”。我们在上篇通过分析“北京地区吃过麦当劳的人数”这样一个最简单的信息需求,说明即使在大数据时代,随机样本分析也是必不可少的,因为现实中并不是对每个问题研究都具备一个可用的全体数据。

本文专门谈论所谓全体数据,为大家揭开全体数据的神秘面纱。

何为全体数据?

在《大数据时代》一书中,全体数据是与随机样本相对立的概念。迈尔大叔这样描述道:“首先,要分析与某事相关的所有数据,而不是依靠分析少量的数据样本。”因而,全体数据明白无误地就是“所有的相关数据”。

如果我们想要知道“北京地区有多少人吃过麦当劳”,这个全体数据就应该是北京地区所有人吃麦当劳的情况。很遗憾,我们知道这个全体数据是不存在的。

&">nbsp;  看看《大数据时代》书中全体数据的一个案例:艾伯特-拉斯洛·巴拉巴西和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。

迈尔大叔的这个全体数据是“一个为全美五分之一人口提供服务的无线运营商提供的”“四个月内所有的移动通信记录”。啥意思?说白了,就是一家移动公司四个月的通信记录。令人不解的是,虽然这仅仅是全美1/5人口四个月的通信记录,迈尔大叔却说“这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。”

“全社会”与“全美1/5人口”,“样本=总体”与“四个月内所有的移动通信记录”,其间如何联系在一起?

还有,如果四个月的数据是全体数据,那三个月或者两个月的数据算不算全体数据呢?

看来貌似简单的全体数据,在迈尔大叔这里也不是那么简单。

全体数据的前世今生

上面案例中涉及的全体数据,实质上就是一家移动运营商数据库中四个月的通信数据。从《大数据时代》中对全体数据的诸多应用可以看到,迈尔大叔所说的全体数据,实际上就是我们通常所说的数据库数据。

“全体”或许只是指包含了数据库中所有的记录。

即使在互联网流行之前,因为有了计算机以及数据库技术,人类已经开始数据的记录和累积。特别是一些特殊的行业如银行、电信等,顾客的购买记录最先被完整地记录下来,从而构成了迈尔大叔所谓的全体数据。

这绝对是小数据时代的故事。也就是说,所谓全体数据并不是大数据时代的产物,全体数据在小数据时代就已经普遍存在了。

对所谓全体数据的分析以及基本的统计分析方法也是小数据时代的普遍现象。

被人们津津乐道的食品超市啤酒搭着尿布一起卖的故事,其数据来源甚至可能都不是所谓全体数据,因为食品超市并没有强求每个消费者都要注册后才能购买。

全体数据并不是我们想象的那样是“所有的数据”,甚至也不是迈尔大叔想象的那样是“所有相关的数据”。全体数据依旧是部分数据,比如说只包含了一家公司的顾客数据。全体数据依旧是取样数据,比如说上面案列中的四个月的取样。

谁说取样必须只是随机取样呢?

全体数据的分析误差

迈尔大叔对随机样本生气的一个主要原因,就是基于随机取样的分析与真实情况有统计误差,不准确。那么,有了全体数据,我们的分析结果就一定没有误差了吗?

假定我们确实有关于北京地区吃麦当劳的全体数据。是的,如果有了所谓的全体数据,关于单个变量的分析结果确实没有统计上的误差,实际上此分析也根本用不到统计学的概念。可是,我们花那么大精力搞一个全体数据,肯定不只是计算一些百分比,或者进行一些简单的单元分析。我们要用这个全体数据来做更多的事,比如说预测哪些顾客下次来会购买巨无霸。分析师会给我们一批顾客名单,告诉我们:这些顾客75%的可能下次购买巨无霸。

75%的可能?也就是说这个顾客还有25%的可能下次不买巨无霸。这就是分析误差。

事实是,除了单个变量的计算(对全体数据来说不是统计分析),全体数据在做任何统计分析时,分析结果都是概率性的,都有统计意义上的误差。

可是《大数据时代》给读者的印象是,只要用了全体数据,你就不用再担心误差了。

全体数据的取样

根据《大数据时代》,用了全体数据,我们就再也不需要取样了。事实果然如此吗?

有意思的是,在上面迈尔大叔给我们提供的全体数据分析的案例里,研究人员只取了数据库里4个月的数据。为什么只是4个月的数据?难道该企业的数据库只有4个月的数据?

当然不是!

事实应该是研究人员从企业的数据库里之取样了四个月的数据。那么,为什么即使有了“全体数据”,研究人员还只取了其中四个月的数据?

因为对数据分析来说,绝对不是数据越多越好。即使我们拥有无与伦比的计算速度,但是过多的数据也会浪费研究人员的时间资源,不必要的数据甚至可能影响分析的结果。何况根据迈尔大叔的介绍,4个月的数据取样已足以得到满意的研究结果了。

看来有了全体数据,也有必要进行数据取样。

《大数据时代》将随机样本与数据库数据对立起来,并且作为大数据时代的一个最显著的特征,这是十分令人难以理解的。而且为了表明与随机样本的对立,将数据库数据称为全体数据,也是不科学的,甚至是危险的。请关注我对所谓全体数据的进一步分析。

时间: 2024-09-20 11:43:41

揭开全体数据的神秘面纱(上)--疑读《大数据时代》(三)的相关文章

大数据24小时:昆明正式成立大数据产业联盟

来源:数据猿 作者:abby 原文链接:http://www.datayuan.cn/article/10323.htm 一.全通讯能力云品牌服务商"环信"获1.03亿元融资 近日,全通讯能力云品牌服务商"环信"对外宣布称,公司已经成功获得了由经纬领投的C轮融资,融资金额高达1.03亿元人民币,跟投方为银泰嘉禾.资料显示,环信成立于2013年4月,是北京易掌云峰科技有限公司旗下一家全通讯能力云品牌服务商,专注于为开发者提供基于移动互联网的即时通讯能力,如单聊.群聊.

不再做“异教徒”——揭开数据库PostgreSQL的神秘面纱

中国云计算产业最具影响力的盛会之一--2016杭州云栖大会(https://yunqi.aliyun.com/)将在云栖小镇召开.连续举办七届的云栖大会一直是业界了解阿里云计算生态发展和应用趋势.体验前沿技术和产品的最佳平台,来自海内外的上万名开发者.创业者聚集于此,分享着他们对云计算的思考与实践经验.7年来,从产品发布到行业解决方案展示,从关注技术到技术与服务并重,从单一的客户到生态全景的展现,大会的核心内容一直在"进化",而2016年杭州云栖大会,则以"飞天・进化&quo

揭开正则表达式语法的神秘面纱

语法|正则 正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言.在表面上它们确实看起来杂乱无章,如果你不知道它的语法,那么它的代码在你眼里只是一堆文字垃圾而已.实际上,正则表达式是非常简单并且可以被理解.读完这篇文章后,你将会通晓正则表达式的通用语法. 支持多种平台 正则表达式最早是由数学家Stephen Kleene于1956年提出,他是在对自然语言的递增研究成果的基础上提出来的.具有完整语法的正则表达式使用在字符的格式匹配方面上,后来被应用到熔融信息技术领域.自从那时起,正则

腾讯微信——揭开房地产基金的神秘面纱

随着腾讯入股大众点评罿/a>的消息落地,腾讯股价再次创造了历史新高;与此同时,当天微信"我皿a href="http://news.pedaily.cn/industry/银行/" target="_blank">银行卡"中就出现了"今日美食"栏目.该栏目恰恰就是大众点评罿/a>的团购栏目〿a href="http://news.pedaily.cn/industry/互联罿" targe

SEO诊断服务:揭开网站排名的神秘面纱

  对于很多不了解SEO优化及搜索引擎工作原理的人来说,常常会发出:"为什么这个网站可以排在百度或谷歌首页?是怎么做到的?利用了什么SEO原理与技巧呢?"等等这样或那样的疑问.其实这些看似让我们迷惑不解的问题,都可通过SEO诊断优化服务来为你揭开揭开网站排名的神秘面纱.最后,你会发现也不过如此,原来就像1+1=2一样的简单,只是我们把它复杂化了,当别人问我们1+1=?的时候,我们觉得太过于简单了,别人不可能问这样的问题,而不敢说出答案. 当然上面所说的,我们看到别人的网站排名好想知道原

揭开主机营销的神秘面纱

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 现在网络营销盛行,无论是做哪一行的销售,都用到了网络营销,然而主机是不是也一样用到了营销的思想呢?就拿IX主机近期如此火爆来说吧,其实就是用了主机营销的思想,还为此成立了IX中文站现在我们就一起来揭开主机营销的神秘面纱吧. 一.了解站长心中的渴望 如果你不知道站长想要的是什么样的主机,对主机有哪些要求,渴望买到什么样的主机,你是无法完成销售的

史上最全“大数据”学习资源整理

史上最全"大数据"学习资源整理 2016-05-17 Hadoop技术博文 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据"一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明.新服务和新的发展机遇.     资源列表:   关系数

“数聚上海 共赢未来” 上海大数据产业高端峰会 Cloudera让大数据实现更多价值

ZDNet至顶网服务器频道 07月13日 新闻消息:今天,大数据已经是一个绕不开的话题了.然而怎样才能拥有大数据能力,却是众多企业头疼的问题.毕竟大数据能力并不是简单的拥有大数据,而是如何利用大数据来创造更多的价值.可以预见的是,在大数据成为趋势,成为国家战略的今天,大数据的有效利用和相应解决方案成为人们普遍关心的课题. 7月9日,由上海大数据产业技术创新战略联盟.上海产业技术研究院. 肯睿(上海)软件有限公司,北京精准数源信息技术有限公司共同举办的"2015上海大数据产业高端峰会"圆

加快打造“云上贵州”,靠大数据实现“后发赶超”

"把大数据作为全省弯道取直.后发赶超的战略引擎,充分挖掘利用其商业价值.管理价值.社会价值,以大数据提升政府治理能力,引领产业转型升级,服务广大社会民生,带动大众创业.万众创新."26日,在贵州省十二届人大四次会议开幕式上,贵州省代省长孙志刚在做政府工作报告时说. 经过近两年的实践探索,贵州大数据产业规模总量已超过5000亿元,年均增长20%以上,成为新的支柱产业.全新的发展模式,正在培育贵州经济发展"新动能",为同步小康插上"翅膀". 截至20