“东莞迁徙”里的大数据误区

  央视2月9日曝光东莞色情业,一石激起千层浪。当晚,一套来自“">百度迁徙”大数据分析的网络图被热转。该图简单而直接地显示了2月9日晚上10点之前8个小时内从东莞迁出及迁入的十大热门城市。虽然原文没有明确地进行解读,但在这个时点网友纷纷转发,心照不宣地认为这就是一张“嫖客小姐逃离图”。
  从整个事情的流程来看,这是一个非常经典的大数据的应用案例。首先结论来源于数据而且数据足够大,然后用到了大数据的分析方法,当然这个具体的模型和算法百度帮大家做了,然后用最时尚最酷的可视化方式展现出来,最后从数据的结果推出了实际想要的结论,一切都那么完美。
  这个大数据的例子比起很多教科书上的例子还要好。从分析的方法来看,逻辑也是非常严密的,要研究的方向是央视曝光之后的影响,这个说得专业一些叫做干预分析。关于影响的可能结果,见仁见智,这个研究选择了一个公众非常感兴趣的结论,也就是出逃的嫖客的去向。该研究选择的方法也很到位,直接利用到了百度的迁徙可视化工具,从数据到结论的完整步骤都有了。
  那么,在大数据时代,一个严密而完善的分析流程是否代表着正确呢?这个问题的答案涉及到了大数据的一个非常重要的本质和误区,并不是用了大数据就一定有结果。
  实际上,不论是大数据还是小数据,数据分析的本质一定是方法要和假设匹配、模型要和数据匹配。我们不用说得那么深奥,就用这个例子的程度来还原一个真正的大数据分析的流程。
  首先,这个迁徙图的数据到底是什么,读者及“分析师”们真的了解了吗?根据百度提供的资料,数据来自于LBS(基于地理位置的服务)开放平台,我们深入探究一下,实际上是来自移动客户端。百度的开发平台上写得很清楚,提供了安卓、Symbian和IP定位的接口,简单点来说,大家通过移动终端来调用百度地图或者其他基于百度地图的服务,会被百度记录下来,然后利用这些数据进行分析。
  但真正用来做迁徙图的数据是什么?百度有直接告诉公众吗?实际上是没有的。利用接口数据,至少有两种方式来绘制迁徙的图形,第一种是通过记录定位的请求,通过每位用户在不同时间位置的轨迹来定义一个迁徙过程,第二种是通过路径规划接口来记录真实的迁徙起止点。
  第一种方式的好处是数据量大而且是实际发生的位移,坏处就是很难区分旅途的中点和终点。第二种方式的好处是起止点非常明晰,坏处是数据量少而且很多数据是未发生的。其实从已有的资料来看,应该是第一种方式,只是具体的处理细节百度并没有公布而已。
  这种方式深究起来其实问题也很多,比如从武汉到东莞,基本上都要经过咸宁,那么武汉和咸宁流入东莞的客流量如何计算,需要一个明确的定义,百度自然是有的,公众自然是不知道的,但是从热传的那张图来看,武汉和咸宁都是流入东莞的前十名的城市。
  通过这个例子,我只是想说大多数人认为自己了解了大数据中的数据,实际上是没有了解清楚的,那么这些数据究竟能得出多强的结论,在百度没有完全披露其所有细节的时候,大众是没有办法了解得很透彻的。
  任何细节方面的处理方式不同都可能对结论造成很大的影响。就拿这个简单的例子来说,百度的这个迁徙地图并没有提供足够的信息供用户进行深入的分析,仅仅只是展示一个概貌上的趋势而已,如果强烈地暗示自己只要是利用到了大数据就一定能得到正确的结论,显然是不对的。
  关于数据源的澄清可能比较复杂,后面的解说就没那么复杂了。我们现在要说的是选择性样本的问题。通过前面数据源的介绍,不论是否真正的了解,至少大家能够理解这个应用的数据只是一部分样本,说简单一点只能代表使用移动终端开启了百度LBS服务的用户,说复杂一点还和百度计量的口径相关。在任何时候要用统计的方法得出一个结论显然是针对总体的,只是我们使用样本进行推断而已,样本的代表性如何决定了结论的质量。
  在东莞迁徙事件之前,百度的这个应用就已经很有名了,最初当然是因为春运。关于春运也有个笑话,说某电视台在火车上问您买到票了吗,结果得出了所有人都买到票的结论。这个例子所有人都知道是一个笑话,其实就是选择性样本偏差的问题。回到东莞迁徙的例子,问题同样存在,只是大家没有当作一个笑话而已。
  我们再说另一个更严重的问题,同样从一个笑话开始,有这么一个研究结论,就是喝牛奶越多越容易得癌症。这个结论吓人一跳,但是如果收集各个区域的牛奶消费量和癌症比例的数据,哪怕做一个简单的图,也可以看出来确实是正相关的。
  这里面的问题是什么,相信很多人已经看出来了,那就是遗漏了关键因素。一般来说经济发达的区域牛奶的消费量会比较高,而由于生活节奏和环境污染的原因,癌症的比例也会比较高,也就是说关键的因素是区域经济是否发达,而不是简单的牛奶消费量和癌症的关系。
  回到东莞迁徙的例子同样如此,东莞作为一个GDP排在全国前列的小城市,本来就很不平凡,每年吸引的外地打工人口不是一个小数目。色情业相关的人口数目其实只是一个很小的比例。从量纲来看,央视曝光事件对人口迁移的影响不一定能比得上随机误差。
  最后我们再回到数据本身,很多读者看了前十位城市的排名,但是并没有仔细看其中的比例数值,就拿迁出城市来说,前三位香港、赣州、郴州比例都在十分之一以上,而其他城市的比例非常小,第十名的漳州只有千分之十九,那么纠结于其他的城市实在是没有意义的。
  我们再来看前三甲的三个城市,即使截至写稿时的查询(2月10日23点),也仍然是前三甲,说明当天的数据排名并不能证明央视的曝光对时间序列进行了显着的影响。我们再来看香港、赣州和郴州的迁入数据,前十名居然都没有东莞,所以说即使这三个城市的迁入数据有什么不寻常的地方,也不一定是东莞造成的。
  无论如何,“东莞迁徙”的例子对大数据来说绝对是一个很好的例子,其价值并不在于网传的结论,而是可以很清楚地解释一个真正的大数据分析的流程以及平常人们对大数据分析的误用,大数据分析并不是灵丹妙药,无论是什么分析都要基于科学的方法,否则会对人们产生强烈的误导,这就得不偿失了。

时间: 2024-11-16 12:53:31

“东莞迁徙”里的大数据误区的相关文章

央视携手百度:《新闻联播》里的大数据

继除夕夜用大数据盘点春运后,昨天央视< 新闻联播>再次运用百度大数据来盘点春节长假.从数据中发现新闻,用数据来解读新闻,这是全球新闻业应对大数据时代来临所作出的关键革新,<新闻联播>.<晚间新闻>等王牌新闻节目对于数据新闻的重视,显示了央视在新闻报道方面寻求突破和创新的坚决态度. "大数据时代究竟是什么?要让普通老百姓都能明白大数据的价值和意义,是一件不容易的事,"中国传媒大学电视与新闻学院教授沈浩表示,央视新闻与百度大数据的合作,是国内观众第一次从

影视业里的大数据应用,是噱头?

虽然不是完全同意文中看法,但作为反向观点,供大家借鉴思考.    近几年,有很多关于大数据在影视方面的案例,Netflix 这个词估计让大家耳朵都听起茧了,另外英国的一家做剧本语义分析的公司Epagogix也成为一个小热词.神秘的大数据与神秘的影视行业,结合在一起之后,便镀上了玄学色彩,似乎你今天在社交媒体上打个喷嚏,正在担心自己是不是感冒了,我明天就能做出一部禽流感主题的恐怖片,并让你有不得不去看的冲动. 事实上在视频行业的人都知道,所谓<纸牌屋>式的成功,与其当做一个技术发展案例来分析,不

诺贝尔化学奖:电脑里的大数据实验

绿叶如何光合作用? 化学家说:植物在可见光照射下,将二氧化碳和水转化为有机物,并释放出氧气.  为什么吃药能治病? 化学家说:因为有效的药物分子在体内,会主动锁定目标,消灭病毒. -- 化学家如何看得见微观世界的现象?原因是他们采用了一种"在复杂化学系统中发展了多尺度模型"的观测方法. 北京时间10月9日17时45分,2013年度诺贝尔化学奖授予了马丁·卡普拉斯.迈克尔·莱维特和阿里耶·瓦谢勒.他们的获奖原因,正是你所看到的上述科学成果.   通俗点说,它就是通过计算机筛选大量数据,从

【云端大数据实战】大数据误区、大数据处理步骤分析

1.背景              首先感谢这次博客的主办方CSDN以及在初赛为我投票的网友们,你们的支持是Garvin前进的动力.本文思路的依据来源于本次天猫大数据竞赛长达三个月的参赛体验.博主作为一个在校的学生,可能如果不是这次比赛,很难能够拥有一套完整的云环境来对TB级的数据进行分析和实践.下面是博主的一点心得,在此抛砖引玉,希望能给大家在云端大数据处理方面带来一点启示. 2.对于大数据和云的一些误区     (1)误区一:云的计算能力是无穷的,不用考虑效率?               

百度迁徙:透过大数据“看”春运

北京往返成都成最热门线路 平均迁入成都的1000个人中,来自北京的有249个 从成都迁出的1000个人中,到北京的就有329个 你知道吗?如果说昨天从外省市回成都过年的有1000个人的话,那么来自北京的就占到了249个,北京是迁入成都人数最多的一个城市. 随着25日晚百度迁徙上线,不少成都市民都在浏览器键入"qianxi. baidu.com",查看每天最新的春节人口迁徙动态图. 这是一张中国地图,每个城市如星星一样密布其上,犹如蛛网一样闪光的迁徙线路将它们连接,反映了无数真实个人的实

为什么说影视业里的大数据应用,多半是个噱头

近几年,有很多关于大数据在影视方面的案例,Netflix 这个词估计让大家耳朵都听起茧了,另外英国的一家做剧本语义分析的公司Epagogix也成为一个小热词.神秘的大数据与神秘的影视行业,结合在一起之后,便镀上了玄学色彩,似乎你今天在社交媒体上打个喷嚏,正在担心自己是不是感冒了,我明天就能做出一部禽流感主题的恐怖片,并让你有不得不去看的冲动. 事实上在视频行业的人都知道,所谓<纸牌屋>式的成功,与其当做一个技术发展案例来分析,不如将它作为一个公关案例来学习.原本在华纳工作的CMO Kelly

“大数据”误区:有的公司不需要大数据

2012年"大数据"的发展如火如荼,然而本文的作者,数据分析公司SiSense副总裁Bruno Aziza却认为并不是每个人都需要大数据. "大数据"无处不在.从社交媒体初创公司到纽约的中央公园,每个公司似乎都在部署大数据分析. 著名数据分析公司Gartner的数据似乎也在证明这一点:最近的一份报告显示,大数据将带动2012年全球280亿美元的IT支出,到2016年这个数字将超过2300亿美元.2300亿美元几乎是葡萄牙全年的http://www.aliyun.c

太一星晨冯晓杰:浅析大数据的四大误区

[天极网服务器频道9月5日消息]目前大数据很火,可是具体到什么是大数据,各个厂商又有着不同的答案.我们知道,行业内依靠四个特征界定大数据:Volume,体量巨大,PB级别;Variety,数据类型繁多;Veracity,价值密度低;Velocity,处理速度快.简而言之,需要从不同维度抓取海量数据并将其快速转变为有序的可用信息. 目前阶段,大数据解决的主要问题分为3类:拓展传统的商业智能(BI)领域.以前针对大数据量的统计.关联分析.趋势预测由抽样变成全量分析.将数据回流到各种报表;业务流程改.

浅析大数据的四大误区

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 近年来,随着云计算和大数据的迅猛发展,已然让"大数据"和"云计算"成为了当下最时髦的词汇.从IT界到.金融界,再到物流界.营销界,乃至医疗界.教育界--无论是界内界外人士几乎都已快形成"言必称云"."言必称大数据"的口头禅. 但如果真遇到一个"较真儿的",发出这样的提