大数据时代的神话--疑读《大数据时代》(一)

地球人都知道我们处在大数据时代,或许地球人也都知道关于大数据时代最著名的一本书就是迈尔-舍恩伯格所著的《大数据时代》。

我本以为大数据这么高深的学问绝不是我们这样的屌丝能够理解或者使用的,所以一直对此书敬而远之,不敢阅读。不料周边谈论大数据的人越来越多,谈论《大数据时代》这本书的人也越来越多,似乎不读《大数据时代》,估计连屌丝都做不成了。所以斗胆请来《大数据时代》。一读,果然不懂,许多疑问。

何为大数据?

这是一个很令人困惑并且绝对屌丝的问题,平时都不好意思开口问别人,希望从书中得到答案。遗憾的是,迈尔大叔在书中就根本没有告诉我们什么是大数据,这对像我这样习惯在课堂里死记硬背的学生来说,就产生了轻微的智障:怎么似乎什么都是大数据。可要我记住哪一个却十分困难。

看完此书,我只能回答说大数据就是数据多数据大。可是这个回答似乎有明显的问题。迈尔大叔在书中就举了一个大数据的例子,这个大数据只有“4000”和“两小时”。

&">nbsp;  在解释大数据时代不需要精准性时,迈尔大叔这样写道:

互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时间信息。

4000个“赞”或者两小时(120分钟)也是大数据?我的小伙伴们开始崩溃了!

我想是不是迈尔大叔可能考虑到我们对过万的数字数不过来所以有意简化,挑选我们能够理解的“大数据”来说明他的论断。

指鹿为马是谓荒唐。可是,如果对马没有定义,那指鹿为马就无所谓了。

呵呵,迈尔大叔还真幽默。

何为大数据时代?

我读西洋人写的书,总是觉得读书时很爽,读完后基本记不住。读《大数据时代》也有同感。很多很多的大数据例子,读完合上书后基本上一个都记不住。不过迈尔大叔可能知道我的这个毛病,所以提纲挈领,总结了大数据时代的三大特征。这就是地球人都知道的大数据时代的三大特征:1)不是随机样本,而是全体数据;2)不是精准性,而是混杂性;3)不是因果关系,而是相关关系。

一本书,三句话,一个时代的特征!楚汉河界,泾渭分明,一目了然。

小数据时代是随机样本、精准性和因果关系,大数据时代是全体数据、混杂性和相关关系。

可是我的脑子就是转不过来,没法从迈尔大叔的三个简单扼要的特征总结中悟出大数据时代来。这个看上去忒简单的总结,其实真的很深奥。简直可谓深不可测!

一大堆的问题等着迈尔大叔来回答。

比如说,是不是大数据时代就不要随机取样分析了?小数据时代是否也有所谓的全体数据?比如说30年前互联网未流行前美国银行或保险公司拥有的数据是不是全体数据?怎样定义全体数据?谷歌、百度、FACEBOOK或者腾讯,哪个公司拥有所谓的全体数据?为什么有了全体数据分析就要完全抛弃随机样本分析?如果考虑到随机样本分析会影响到分析结果的精度,不是大数据时代不追求精度吗?

关于大数据时代不要精准性,我怎么也拐不过弯来。你说,大数据时代的老师教学生“2加2或许等于3.9”,公司会计记账错了也可以对老板理直气壮地说“现在是大数据时代了”,甚至到饭店吃饭付账也不要精准了......呵呵,这日子还让不让人活啊?!

还有有关因果关系和相关性的问题,这也要命!我一直认为人与猴子的根本区别在于人喜欢问个“为什么?”。原本两个猴子,一个不断好奇地问“为什么日落就要睡觉”,结果大脑不断进化变成了人;另一个只是看到日落就上树睡觉,结果至今还是猴子。现在好了,大数据时代不需要问“为什么”了,岂不苦了我们从猴子变人过程中长期培育起来的好奇心了。

因果关系与相关关系的区别,就是因果关系在相关关系上问了个”为什么“。

流传甚广的有关超市将啤酒与尿布一起卖的大数据例子。说是通过大数据分析发现,人们在买尿布时通常也会买啤酒,于是就将啤酒与尿布陈列在一起卖。

如果你生活在大数据时代,故事到此结束了。

如果你还好奇地想知道为什么人们买尿布时要买啤酒。呵呵,对不起,你和我一样还生活在小数据时代。

我们无疑生活在一个互联网的时代,这是一个充满海量数据的世界。数据的多种形式、数据的多种来源、数据之间的多种复杂的联系,都使我们这个世界变得更加神秘但也更加激动人心。这就是大数据时代。

对大数据时代的探索,犹如当年美国对西部的探险,充满许多传说和神话。《大数据时代》或许可能就是这样一本充满神话与传说的探险记。我们为之心动,但依旧要活在现实的生活中,现实生活中的那些规律依旧适用。

即使是大数据时代,我们依旧需要问”为什么“,我们依旧需要教会孩子“2 2=4”,我们甚至依旧要做随机样本分析。

大数据并没有改变我们现有社会的基本生活逻辑。

大数据时代,平常人,平常心。

时间: 2024-10-02 14:49:09

大数据时代的神话--疑读《大数据时代》(一)的相关文章

“不是随机样本”行得通吗?--疑读《大数据时代》(二)

在<大数据时代>一书中,迈尔-舍恩伯格给出了著名的关于大数据时代的三大特征:1)不是随机样本,而是全体数据:2)不是精准性,而是混杂性:3)不是因果关系,而是相关关系.本文解读一把"不是随机样本". 为什么随机样本? 首先什么是随机样本.如果你碰巧哪天在街头被人拦住做问卷调查,或者接到电话问卷调查,恭喜你,你成为某项http://www.aliyun.com/zixun/aggregation/10341.html">统计分析的随机样本.很显然,迈尔大叔所例

揭开全体数据的神秘面纱(上)--疑读《大数据时代》(三)

在<大数据时代>中,迈尔-舍恩伯格告诉我们大数据时代的第一大特征就是"不是随机样本,而是全体数据".我们在上篇通过分析"北京地区吃过麦当劳的人数"这样一个最简单的信息需求,说明即使在大数据时代,随机样本分析也是必不可少的,因为现实中并不是对每个问题研究都具备一个可用的全体数据. 本文专门谈论所谓全体数据,为大家揭开全体数据的神秘面纱. 何为全体数据? 在<大数据时代>一书中,全体数据是与随机样本相对立的概念.迈尔大叔这样描述道:"首

揭开全体数据的神秘面纱(下)--疑读《大数据时代》(四)

本文接着继续对全体数据进行更多的分析. 更多关于全体数据的取样 就上篇文章中迈尔大叔所举的那个全体数据的例子来说,分析人员只取了数据库中四个月的数据进行分析.为什么?因为分析的任务不是要得到数据库中每个顾客长期的人脉关系,而是通过一定时期内http://www.aliyun.com/zixun/aggregation/7185.html">人际关系的分析,了解拥有不同人际关系的个人对整个社区关系网的影响.因此,适当的阶段性数据的取样就十分必要. 试想一下,如果研究人员采用了数据库中所有的数

解读《大数据时代》:大数据时代的神话

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 地球人都知道我们处在大数据时代,或许地球人也都知道关于大数据时代最著名的一本书就是迈尔-舍恩伯格所著的<大数据时代>. 我本以为大数据这么高深的学问绝不是我们这样的屌丝能够理解或者使用的,所以一直对此书敬而远之,不敢阅读.不料周边谈论大数据的人越来越多,谈论<大数据时代>这本书的人也越来越多,似乎不读<大数据时代

读懂这篇文章就懂大数据,3000字概括《大数据时代》

有言在先 近期有些起伏,这种情况最适合回归书本,寻找一些你内心认同的东西.这几天花了点时间重温<大数据时代>,整理.总结出了精华的东西,分享给大家. 大数据引起了变革 当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得巨大价值的产品和服务,或深刻的洞见. 1.震人心魄的数据 2003年,人类第一次破译人体基因密码的时候,辛苦工作10年才完成了三十亿对碱基对的排序;大约10年后,世界范围内的基因仪每15分钟就可以完成同样的工作.在金融领域,美国股市每天的成交量高达7

大数据不是神话,不是泡沫,是在其上构建的创意和生意

最近10年,没有一个技术名词能像大数据一样深入社会每个阶层,获得这么广泛的关注.大数据被讨论得如此泛滥已经引起警觉,以至于2013年后,真正从事大数据行业的人尽量避免提及这三个字.本文无意对大数据概念做任何修正,评判,或专家论调.只是一些事实,和来自20年数据分析从业经验的一些感想. 1 辉煌的十年 大数据浪潮来自三股力量推动:技术社区,市场,学术圈. 2004, Google 发表了 "MapReduce: Simplified Data Processing on Large Cluster

大数据泡沫时代:是时候对大数据回归理性了

大数据时代来临,社会对数据人才的理解和评价存在泡沫,是时候需要回归到理性.从智联网的招聘信息看到,很多公司招聘高级数据分析,都特别提出类似的要求:熟练使用SAS.SPSS.R等工具.这些软件都是统计软件,里面的算法都是上个世纪不懂公司业务的人弄出来的.既然是统计领域的知识,为什么特别强调这部分知识呢?其他知识重要性都较轻吗?公司不需要? 很多公司招高级数据分析如此,阿里巴巴数据分析专家卢辉写的书也有类似的问题.很多人都有光环效应(他们认为由于阿里的数据厉害,所以阿里的数据分析专家写的都是对的,其

大数据时代:休眠沉睡的政府数据看不着、查不到

长期分散在各个政府部门的各项数据"各吃各饭""各管一摊",休眠沉睡.一边是看不着.查不到,一边是握在手.落满土--大数据时代,诸多政府数据面临着如此尴尬.如何唤醒政府数据?这一大数据时代之问,已经成为社会的重要关切. 政府数据像是穿着"隐身衣" "很繁琐."面对半月谈记者的采访,长春一名硕士研究生王贺说,因研究需要,他要查阅省内县市七八十年代的经济发展数据,包括GDP增速.人均收入增速等. "这些数据县里都有,提供起

大数据时代,没人知道哪些数据会成为重点

相信很多智能手机用户不太明白,为什么我只是想下载个手电筒应用而已,这个应用为什么要看我装了其他什么应用,我现在位置是哪里,我通讯录里有什么人,相册里有什么照片?而且还要求打电话和发短信的权限,要知道这些权限我女朋友都没有好不好! 一个手电筒应用的要求比女朋友还多,是不是太过分了?我们都知道,在其位不谋其政的人基本上都不是好家伙,一个手电筒应用想看我的位置通讯录照片,目的肯定也不是识别谁是女朋友,然后将屏幕亮成爱你的形状然后彩信发给女朋友逗她开心. 新华网的记者做了一次小测试:他手上的一款 And