揭开全体数据的神秘面纱(下)--疑读《大数据时代》(四)

本文接着继续对全体数据进行更多的分析。

更多关于全体数据的取样

就上篇文章中迈尔大叔所举的那个全体数据的例子来说,分析人员只取了数据库中四个月的数据进行分析。为什么?因为分析的任务不是要得到数据库中每个顾客长期的人脉关系,而是通过一定时期内">人际关系的分析,了解拥有不同人际关系的个人对整个社区关系网的影响。因此,适当的阶段性数据的取样就十分必要。

试想一下,如果研究人员采用了数据库中所有的数据,则可能将更多的人际关系发展因素也包括进来,这反倒可能影响研究的结果。所以说,全体数据不加区别的应用并不一定是最佳的选择。

再举一个对全体数据进行取样分析的例子。早年我曾经做过一个搜索引擎算法分析的应用,原理就是根据随机取样的关键词,到各大搜索引擎(美国的)上去爬取搜索结果的网页,分析各种SEO技术对各搜索引擎网页排名的影响。时间长了,我所爬取的网页数据库也就成了迈尔大叔所谓的全体数据。我是不是应该每次分析时都使用所有的数据呢?当然不是。因为搜索引擎在不断改变其搜索排名的算法,如果我将已经过时的排名网页信息包括在我的搜索引擎排名关键因素的分析中,那就会适得其反导致分析结果的不准确。

迈尔大叔数次提起的有关飞机票价预测的数据分析,也存在着同样的情况。航空公司可能会改变其机票价格的决定机制。如果在票价预测分析中包含了已经过时的票价决定机制的信息,那分析的结果就会受到干扰而增加误差。

数据并非绝对越多越好。即使是全体数据,也要根据分析任务进行必要的取样。原因可能是多种,适当的取样是优化分析过程和分析结果的一种选择。而且,取样也不只限于随机取样。

全体数据的陷阱

第一个陷阱就是所谓全体数据,在绝大多数情况下并不是“全体”。我们来看看那些绝对重量级的互联网企业,它们最可能拥有所谓全体数据,比如说谷歌、百度、FACEBOOK、淘宝天猫,哪个公司的数据库能够被称为“全体”呢?

更多的陷阱倒不是因为“全体”这个名称,但是这个名称肯定会增加陷阱的深度。

一个企业有了数据库,往往更愿意局限于自己的数据库来进行各种分析。有句老话叫做“种瓜得瓜种豆得豆”。这个全体数据分析的陷阱就是:如果你种的是瓜,你就分析不出豆来。

例如某新闻网站经常用很黄很暴力的新闻吸引网友下载它的新闻app。久而久之,其app的用户就可能是“黄衫军”了。如果这时你想通过这个“全体数据”的分析了解怎样在他们中间推销红汗衫,肯定是不妥的。

再举一个简单的例子。比如说你通过对全体数据的分析,得出某款商品是你顾客最喜欢的。但实际情况果真如此吗?或许顾客喜欢的商品根本就不在你的全体数据里,所以你再怎么分析也根本得不到你的顾客最喜欢什么样的商品。

外面的世界很精彩。你经常需要跳出全体数据,来体验外面世界的精彩。

全体数据与随机样本

不知为什么在迈尔大叔的世界观里,除了全体数据就是随机样本,杨白劳Vs.黄世仁,阶级斗争绝对不可调和。

然而事实并非如此。即使拥有全体数据,随机取样的问卷调查也是需要的,甚至是必须的。

因为全体数据几乎都不是什么真正的“全体”数据,不可能包含所有我们想了解的信息,所以经常需要在全体数据的基础上获得更多的信息。其中一种来源是与其他“全体数据”对接,比如说在美国可以根据个人社会保险号对接个人信用信息;另一种方法就是在“全体数据”中随机(或用其他方法)选取部分样本,然后对这些顾客进行问卷调查,以补充数据库中缺失的信息,然后通过对接将问卷调查的信息融入到全体数据的分析中。

这样的分析迈尔大叔应该没有听说过,否则他就不会将随机样本与全体数据这样绝对地对立起来。但这样的分析却在小数据时代就被普遍应用了。

“不是随机样本,而是全体数据”。这是《大数据时代》给出的大数据时代最著名的时代特征。我用了三篇文章对随机样本和所谓全体数据进行了分析。本文结束前我再做个总结:

1)所谓全体数据,在绝大多数情况下只是指企业的数据库数据;

2)世界上可能不存在能够解决各种问题的所谓全体数据;

3)随机样本与所谓全体数据并不是你死我活的绝对对立,而是可以和平共处,甚至是相互补充;

4)所谓全体数据以及对全体数据的分析方法,早在小数据时代就已经普遍存在;

5)随机样本分析在大数据时代也还会继续展示其存在价值;

6)即使是所谓的全体数据,往往也有必要通过取样进行更有效的分析;

7)分析所谓全体数据时,应该想到外面世界可能更精彩。

总之,随机样本与所谓的全体数据(实际是数据库数据)应该属于两个不同的概念,若将其对立则逻辑上有问题。更重要的是,无论是随机样本,还是所谓的全体数据分析,都不应该是一个时代的代表。

随机样本代表不了小数据时代,所谓的全体数据也代表不了大数据时代。

时间: 2024-12-25 09:21:47

揭开全体数据的神秘面纱(下)--疑读《大数据时代》(四)的相关文章

大数据技术论坛(下):大数据时代的掘金术

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 用友软件高级工程师 白小勇 2014中国大数据技术大会第二日上午的大数据技术论坛,用友软件高级工程师白小勇主持了下午的论坛.前通联数据

揭开全体数据的神秘面纱(上)--疑读《大数据时代》(三)

在<大数据时代>中,迈尔-舍恩伯格告诉我们大数据时代的第一大特征就是"不是随机样本,而是全体数据".我们在上篇通过分析"北京地区吃过麦当劳的人数"这样一个最简单的信息需求,说明即使在大数据时代,随机样本分析也是必不可少的,因为现实中并不是对每个问题研究都具备一个可用的全体数据. 本文专门谈论所谓全体数据,为大家揭开全体数据的神秘面纱. 何为全体数据? 在<大数据时代>一书中,全体数据是与随机样本相对立的概念.迈尔大叔这样描述道:"首

不再做“异教徒”——揭开数据库PostgreSQL的神秘面纱

中国云计算产业最具影响力的盛会之一--2016杭州云栖大会(https://yunqi.aliyun.com/)将在云栖小镇召开.连续举办七届的云栖大会一直是业界了解阿里云计算生态发展和应用趋势.体验前沿技术和产品的最佳平台,来自海内外的上万名开发者.创业者聚集于此,分享着他们对云计算的思考与实践经验.7年来,从产品发布到行业解决方案展示,从关注技术到技术与服务并重,从单一的客户到生态全景的展现,大会的核心内容一直在"进化",而2016年杭州云栖大会,则以"飞天・进化&quo

揭开正则表达式语法的神秘面纱

语法|正则 正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言.在表面上它们确实看起来杂乱无章,如果你不知道它的语法,那么它的代码在你眼里只是一堆文字垃圾而已.实际上,正则表达式是非常简单并且可以被理解.读完这篇文章后,你将会通晓正则表达式的通用语法. 支持多种平台 正则表达式最早是由数学家Stephen Kleene于1956年提出,他是在对自然语言的递增研究成果的基础上提出来的.具有完整语法的正则表达式使用在字符的格式匹配方面上,后来被应用到熔融信息技术领域.自从那时起,正则

SEO诊断服务:揭开网站排名的神秘面纱

  对于很多不了解SEO优化及搜索引擎工作原理的人来说,常常会发出:"为什么这个网站可以排在百度或谷歌首页?是怎么做到的?利用了什么SEO原理与技巧呢?"等等这样或那样的疑问.其实这些看似让我们迷惑不解的问题,都可通过SEO诊断优化服务来为你揭开揭开网站排名的神秘面纱.最后,你会发现也不过如此,原来就像1+1=2一样的简单,只是我们把它复杂化了,当别人问我们1+1=?的时候,我们觉得太过于简单了,别人不可能问这样的问题,而不敢说出答案. 当然上面所说的,我们看到别人的网站排名好想知道原

揭开主机营销的神秘面纱

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 现在网络营销盛行,无论是做哪一行的销售,都用到了网络营销,然而主机是不是也一样用到了营销的思想呢?就拿IX主机近期如此火爆来说吧,其实就是用了主机营销的思想,还为此成立了IX中文站现在我们就一起来揭开主机营销的神秘面纱吧. 一.了解站长心中的渴望 如果你不知道站长想要的是什么样的主机,对主机有哪些要求,渴望买到什么样的主机,你是无法完成销售的

腾讯微信——揭开房地产基金的神秘面纱

随着腾讯入股大众点评罿/a>的消息落地,腾讯股价再次创造了历史新高;与此同时,当天微信"我皿a href="http://news.pedaily.cn/industry/银行/" target="_blank">银行卡"中就出现了"今日美食"栏目.该栏目恰恰就是大众点评罿/a>的团购栏目〿a href="http://news.pedaily.cn/industry/互联罿" targe

“互联网+”下的金融大数据风口解码

文章讲的是"互联网+"下的金融大数据风口解码, 目前,金融行业数据量巨大,是继互联网及运营商之后大数据产生最为庞大的热点行业之一,其中非结构化数据迅速增长,加上金融行业雄厚的资本背景,金融行业已经成了大数据应用的一片沃土.而放眼全球,金融行业也是大数据的应用重镇,根据此前麦肯锡的<大数据的下一个前沿>系列报告,无论从大数据应用综合价值潜力维度,还是平均数据量而言,金融行业大数据的应用综合价值潜力都非常高. 来源:麦肯锡<大数据的下一个前沿:创新.竞争和生产力>报

数据无界·存储无疆:大数据时代下,闪存已经势不可挡

近日,IBM在深圳召开"数据无界 • 存储无疆,IBM为大数据再造存储盛典"主题大会暨中国闪存联盟第三季启动仪式. 数据无界 • 存储无疆,IBM为大数据再造存储盛典 在"IBM为大数据再造存储盛典"上,IBM向与会嘉宾展示了全新的存储软件产品系列IBM光谱存储(IBM Spectrum Storage)和新一代全闪存解决方案IBM FlashSystem V9000.FlashSystem 900等产品,并介绍了自身在存储领域的新战略.新行动与新成果. IBM大中

MapReduce框架下的实时大数据图像分类

MapReduce框架下的实时大数据图像分类 张晶 冯林 王乐 刘胜蓝 图像数据作为大数据的重要组成部分蕴含着丰富的知识,且图像分类有着广泛的应用,利用传统分类方法已经无法满足实时计算的需求.针对此问题,提出并行在线极端学习机算法.首先利用在线极端学习机理论得到隐层输出权值矩阵;其次根据MapReduce计算框架的特点对该矩阵进行分割,以代替原有大规模矩阵累乘操作,并将分割后的多个矩阵在不同工作节点上并行计算;最后将计算节点上的结果按键值合并,得到最终的分类器.在保证原有计算精度的前提下,将文中