小心大数据的陷阱

摘要: 前不久腾讯举办了一场夏季思享会,其主题是大数据。关于大数据,大家炒作得更多的是机遇、威力,比方说越来越多人利用Google的大数据来研究趋势,辅助分析决策,但是这场思享会

前不久腾讯举办了一场夏季思享会,其主题是大数据。关于大数据,大家炒作得更多的是机遇、威力,比方说越来越多人利用Google的大数据来研究趋势,辅助分析决策,但是这场思享会从另一个角度分享了一个很好的思考:大数据也可能是“大忽悠”。

而最近对Google Flu Trends(流感趋势)的一些研究正好佐证了这一点。

说到Google Flu Trends,首先必须先提一提Google Trends和Google Correlate。Google Trends利用对用户搜索的大数据分析来获得人类某些活动的趋势,只要在Google Trends上输入某些查询关键字即可返回相关活动的数据序列。而Google Correlate则是输入数据序列可返回一组结果呈类似模式(相关性)的查询,有点类似于Google Trends的反函数。

Google Flu Trends是Google Trends最早也是最知名的应用之一。鉴于很多人患流感是往往会上Google查询了解疾病情况和用药,因此Google发现这种查询与流感爆发存在着某种相关关系。Google Trends曾经有过多次对流感的成功预测,包括2011/12年的美国流感、2007/08年瑞士流感、2005/06年德国流感、2007/08比利时流感等,其及时性甚至要比美国疾病预防控制中心还要高。

这显示出了搜索“流感”与流感爆发的相关性。

另一个例子是“宿醉”。比方说在Google Trends输入“hangover(宿醉)”,你会发现这种情况在周六开始冒头,然后周日到达巅峰,而到了周一则急剧下降。这种模式与输入“伏特加”的查询结果类似(滞后一天)。

但是数据越大未必就能带来更高的预测率。甚至还会带来“假规律”和“伪相关”。比方说,搜索2004至2012年间的美国汽车销售与“印度餐馆”,结果发现二者之间竟然存在相关关系。这个东西显然是无法解释的。

伪相关的原因是什么呢?

首先,相关性并不意味着因果关系。比方说,Google Flu Trends对趋势的预测并非屡试不爽。有几次Google Trends就严重高估了流感病例的数量,包括2011/12的美国流感,2008/09瑞士流感,2008/09德国流感、2008/09比利时流感等。

英国伦敦大学学院的研究人员对此进行了研究。结果发现,到Google搜索“流感”的人可以分成两类,一类是感冒患者,一类是跟风搜索者(可能是因为媒体报道而对感冒话题感兴趣者)。

显然第一类人的数据才是有用的。其搜索是内部产生的,独立于外界的。因此这些人的搜索模式应该与受到外界影响而进行搜索的人的模式不同。而正是第二类人的社会化搜索使得Google Flu Trends的预测失真。这正是因为Google Flu Trends把搜索“流感”与得流感的相关性当成了因果关系所致。

而稍早前美国东北大学与哈佛大学的研究人员对Google Flu Trends的失真案例进行的另一组研究则认为,这反映出了热炒大数据的氛围下诞生的一股大数据自大思潮。这股思潮认为,大数据完全可以取代传统的数据收集方法。其最大问题在于,绝大多数大数据与经过严谨科学试验和采样设计得到的数据之间存在很大的不同。首先,大未必全;其次,大则可能鱼龙混杂。

此外,Google搜索算法本身的变化也有可能影响到Google Flu Trends的结果。这个原因不难理解。要知道,Google搜索的调整非常频繁,单去年就进行了890项改进。其中就有不少属于算法的调整。媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,也会令Google增加相关搜索的推荐。从而令一些本身并不感冒的人也对流感产生了兴趣,进而把数据弄脏。

如何清洗数据呢?归根到底还是需要对数据进行模式分析。在流感趋势这个例子,研究人员认为,执行独立搜索的患流感人群的模式会随着时间推移而异于社会化搜索。其表现应该是在流感爆发时搜索急剧攀升,然后随着流感消失而缓慢下降。相反,社会化搜索则会表现得更为匀称。数据表明,在Google流感趋势出现高估的时候,趋势曲线的对称性的确更高。

这说明在分析大数据时必须要注意此类陷阱。充斥的大数据集以及统计学家对分析结果的传播会令真实的数据被放大或弄脏。

正如《The Parable of Google Flu: Traps in Big Data Analysis》的作者所认为那样,数据的价值并不仅仅体现在其“大小”上。利用创新性数据分析方法去分析数据才是本质。

当然,在未来数据能够逐步成为真正的大数据,并且数字世界与实体世界的映射趋于一致时,大数据也许就能发挥其完全的威力,乃至于改变我们解决问题的方式。

时间: 2024-09-24 23:59:10

小心大数据的陷阱的相关文章

大数据的陷阱

       大数据管理通过大量数据采矿,找出潜在的变量和它们之间的因果联系,这样企业可以有针对性地生产和营销.相比之下,小数据泛指零星的弱信号.它们往往被当作没有规范.似乎随机的偏差或噪音.被过滤和忽视是小数据的命运,原因是人们没有现成的概念去定义和解释它们.可是,没有小数据,大数据管理会充满陷阱. 小数据为主,大数据为仆,这是数据管理的正道. 大数据的陷阱 春节就要到了.假如你是一位出车千次无事故的好司机,恰好在朋友家喝了点酒,警察也过年下班了,于是你坚持自己开车回家,盘算着出问题的概率也不

大数据发展谨防"一哄而上" 警惕大数据应用陷阱

马云曾说,"我们还没搞懂PC互联网的时候,移动互联网来了.我们还没搞懂移动互联网的时候,大数据来了."作为近几年来最热门的网络概念之一,大数据在多个领域的落地显示出其巨大优势,如出行类APP在城市中为用户提供快速的车辆调度,又如谷歌智能系统阿尔法围棋在人机围棋大战中获胜.然而大数据应用喜忧参半亦是事实,曾作为大数据具备革命性潜力证明的谷歌流感趋势近几年的预测结果并不尽如人意. 大数据是否被过度热炒?现行大数据分析是否可靠?这些疑问在大数据已作为国家战略被写进"十三五"

大数据的陷阱深几许

博弈论中有一个术语叫"混序代价",意思是系统中的个体完全按自己利益行动的话,会降低系统效率.这是个普遍现象,几乎每个人都遇到过.举个例子,假如你是一座城市的交通规划者,有两种交通导流方式可供你选择.一种是中心化的.自上而下的方式--整个系统被事先清楚考虑好,拥堵之处被人工识别,然后通过调整系统加以清除:一种是直接让司机们在路上自己做决策.一般来讲,前者更有效率,它降低了混序代价,更加有效地利用了信息. 数据淘刷着今天的世界.2015年人类制造的信息量,等于以往人类文明所制造信息量的总和

警惕大数据中的“陷阱”

导语:关于社会大数据的研究近年来不断扩大.繁荣,发展为集社会学.计算机学.物理学.心理学等多个学科于一身的交叉学科.与此同时,新的数据获得渠道.数据处理方法和工具也不断被研究者们引入社会研究领域.然而,正是因为该领域的快速兴起,社会大数据的研究方法往往未能得到足够的重视和讨论.未成形的方法规范.模糊的样本收集范围及边界等诸多问题导致类似研究难以复制,更难以像传统社会学研究方法一样可以通过实证研究结果的梳理总结得出系统的理论.本期[大数据与社会]将梳理总结关于大数据研究"陷阱"的文章,介

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

国际思想周报|特朗普的流氓美国,大数据时代如何拆穿胡扯

近日,美国总统特朗普宣布退出<巴黎气候协定>,在国内外引起广泛不满.诺贝尔经济学奖获得者.哥伦比亚大学教授约瑟夫·斯蒂格利茨(Joseph E. Stiglitz)在Project Syndicate以"特朗普的流氓美国(Trump s Rogue America)"为题撰文,对特朗普的这一举动进行了猛烈抨击. 斯蒂格利茨.斯蒂格利茨称,特朗普此举是在二战后艰难建立的世界经济体系中投掷了一枚手榴弹,而这一试图破坏建立在规则之上的全球治理体系的举动只是这位美国总统攻击当今基本

大数据和统计学并不矛盾

通常,对于新的IT关键词必定会出现"反对派".最近,"大数据"就成为被攻击的对象,诸如"大数据失败论"等论调也明显增加. 业界对大数据抱着极大的期待,这一点从大量http://www.aliyun.com/zixun/aggregation/14294.html">的大数据研讨会和展示会风潮就足以证明.这些年来,除了云计算浪潮,缺乏热烈话题的IT业界而言,大数据是期待已久的大型关键词,也许大数据会成为恢复业界活力的强心剂. 与此同

防止坠入“大数据陷阱”,除了技术还需要什么?

摘要面对互联网金融大潮,在兴奋激动之余,我们还需要一种相对冷静平和的心态.如果我们真的要搞金融大数据开发,真的要靠有关数据来办互联网金融,那确实就要认真思考一下自己所谓拥有的"大数据"真的足够大了吗?足够长了吗? 当今,互联网化正带动着许多行业.产业的组织变革和商业变革.在这一历史性的进程中,互联网技术的迅速发展也给金融领域的创新带来了巨大活力,显著提升了金融服务的水平.首先,从银行来说,现在银行已普遍通过互联网渠道开办各类业务,银行服务的成本有了下降(电子银行每笔交易成本大约只有银行

百度大数据揭秘网络消费十大陷阱行业

央视315晚会已经落幕,一系列曝光再度引发热议,正在网友纷纷捕捉消费真相的同时,一张以大数据为依托.以数据说话的"网络消费安全图谱"新鲜出炉.这份图谱以百度400TB的网络真实检索数据,利用深度学习技术,以可视化大数据的形式直观展现网络消费十大陷阱行业及风险品类.地域指数,为消费者提供了切实的网络消费预警及风险参考.(详细请见具体页面http://huodong.baidu.com/315/data/) 据悉,"百度网络消费安全图谱"是继"百度迁徙&quo