大数据的应用统计之殇

今年,统计对大数据是非常重要的这一观念充斥着大众媒体。这里有几个例子,首先是Lazer等人在科学杂志上发表的文章,使得这一观念迅速蔓延。

· 谷歌流感的教训:大数据分析的陷阱

· 大数据,我们犯了一个大错误?

· 谷歌流感趋势:大数据的限制

· 八个(不,九个!)大数据的问题

所有这些文章涉及的问题都是统计人员思考了很长时间的问题:抽样总体,干扰因素,多重检验,偏置和过拟合。在大数据的热潮中,这些想法都被忽略或没有给予足够的重视。

原因之一是,当你真正花时间做一个正确的分析,仔细注意数据变化的所有来源,你将发现这几乎是一个定律:如果你只是把你的数据塞到机器学习的算法中,并报告任何出来的结果,你将会得到比你原本应该得到的更少的结果。

新闻报道中最好的例子是谷歌流感趋势。谷歌流感趋势最初是作为一种机器学习算法,用来预测基于谷歌搜索关键词的流感病例的数量。尽管基础的数据管理和机器学习算法是正确的,但由于对数据收集和建模过程中的不确定性的理解不足渐渐导致极不准确的预测。如果是一位统计学家,他会仔细考虑采样过程,确定影响空间发展趋势的时间序列因素,研究为什么搜索词具有预测性,并试图了解谷歌流感趋势可行的可能原因是什么。

正如我们所看到的,统计专业知识的缺乏导致了基因组学和经济学研究上的一些经典错误案例。第一种情况,由AnilPotti领导的一队科学家设计了一个预测化疗反应的算法,该方案在科学界和大众媒体上均受到广泛好评。不幸的是,研究人员没有正确地考虑数据集变化的所有来源,用了错误的统计方法,忽略了主要的数据完整性问题。这篇文章的主要作者和编辑都缺乏必要的统计专业知识,从而导致严重的后果,并取消了临床试验。

同样,两位经济学家Reinhart和 Rogoff发表了一篇文章,声称GDP增长因为政府债务高而变慢。后来人们发现,在他们用于分析的Excel表格中有错误。但更重要的是,他们在回归模型中使用的权重被质疑为是不切实际的,并导致与作者公开拥护的观点截然不同的结论。失败的主要原因是对数据分析的假设缺少了灵敏度分析,而这是任何训练有素的应用统计学家都会做的事。

迄今为止,在主要的公共大数据领域中,统计思维也表现的非常缺乏。下面是一些例子:

· 白宫大数据合作伙伴研讨会- 0/19是统计学家

· 国家科学院大数据研讨会-2/13发言者是统计学家

· 摩尔基金会数据科学平台- 0/3董事有统计背景,1/25在OSTP(科技政策局)关于这个平台的发言者是统计学家

· 提议成立NIHBD2K的组织- 0/18参与者是统计学家

· 白宫大数据部署- 0/4思想领袖是统计学家,0/n参与者是统计学家。

(译者注:NIH BD2K是美国国立卫生研究院在2013年启动的大数据创新计划)

还有一个例子是来自加州大学校友杂志的一个荒唐的表格,这是我在Terry Speed的令人惊异的演讲中找到的。(马上通过链接去看一下他的讲话,就能直接看到问题所在)它显示了对曾经在一系列科学学科中发展了重要的专业知识的应用统计学者的最基本的不尊重。

(译者注:上图来自加州大学伯克利分校(UC Berkeley)的校友杂志,显示的是该校几乎所有的学科在数据科学领域的贡献,唯有统计学是一片空白)

所有这一些导出了两个问题:

1. 鉴于统计思考的重要性,为什么统计学家在这些重大举措中没有发挥主动性?

2. 当思考大数据时代时,哪些统计理念是我们已经弄明白的?

作者:Jeff Leek

原文发布时间为:2014-12-12

时间: 2024-09-26 10:37:50

大数据的应用统计之殇的相关文章

大数据不止是统计数据那么简单!

统计无时不在,从结绳记事到今天的大数据,统计作为人们认识客观世界的工具,也在不断创新,统计学作为一门系统研究数据的学科,在不断丰富与完善.大数据时代来临,统计如何应对新的挑战与机遇?我们回顾历史,不忘初心,以开放的态度.创新的精神和不懈的努力,继续前进,让统计在大数据的舞台上,发挥更大的作用. 普遍的定义认为,统计学是关于数据的科学,研究如何收集数据,并科学地推断总体特征.普查作为最古老的数据收集方法,已经有数千年的历史,据记载,2200多年前的西汉时期,中国开展了第一次人口普查.17世纪中叶,

破解大数据下的统计管理工作困局

根据市人大常委会2016年度工作安排,7月召开的常委会第三十一次会议将审议 <上海市统计管理条例 (修订草案)>.为了提高法规草案的审议质量,市人大常委会部分组成人员昨天赴上海市统计资料中心开展立法调研.市人大常委会主任殷一璀参加. 殷一璀一行视察了市统计局社情民意调查中心,了解市统计局通过电话方式开展专项调查,为本市重大政策提供决策参考的情况:视察了统计资料展示馆,并听取市统计局负责人就本市统计工作以及统计管理法制工作开展情况所作的汇报. 海量信息.数据的爆发式增长的情况下,统计部门如何保证

大数据开启“互联网+统计”新模式

文章讲的是大数据开启"互联网+统计"新模式,统计行业是与国家发展和居民生活情况等息息相关的行业,统计的基本任务是对国民经济和社会发展情况进行统计调查.统计分析,提供统计信息和咨询意见,实现统计监督,为各级政府部门的决策提供依据.随着新一代信息技术的不断发展,统计信息化水平取得快速发展,也赋予了"统计现代化"更多内涵.尤其是大数据技术理念的推广和普及,给多年来与数据打交道的统计行业带来了更加深刻的变革. 日前,由清华同方主办的统计"企业一套表"联网

大数据为灾区统计添助力

 "7·19"洪涝灾害发生后,我市统计部门第一时间建立灾情统计直报机制,设计出涵盖农林牧渔.工矿企业等4大类44项灾情统计表格,方便一线人员开展专业性统计工作:同时,关联对比评估分析,进行价格验证,做到灾区源头数据科学准确. "我们还运用统计大数据平台建立灾情统计数据库,加大对农业.工业.服务业等行业农户.工业商贸企业的调研力度,对全市经济运行影响程度进行评估分析,为灾后重建进行模块化数据分析,为全市经济发展提出合理化意见建议奠定了数据统计基础."市统计局负责人马千

大数据时代:GDP统计过时了吗?

国内生产总值(GDP).失业率.通货膨胀以及贸易赤字等宏观经济统计数据,是经常用作宏观分析的先行指标.一段时间以来,GDP甚至成了衡量经济成败的标准.现如今,跨国公司生产销售的国际化.现代服务业的高速发展.网络经济与实体经济的融合等现象,让传统的宏观经济数据不再能涵盖经济发展的全貌.近期,国际舆论针对大数据应用如何弥补这一漏洞展开热议.在大数据时代,GDP等一系列传统的经济指标,真的已经"过时"了吗? 1.传统数据"漏掉"了什么? 2009年7月28日,国家统计局发

大数据来了 给政府统计带来了机遇与挑战

对于政府统计机构来说,没有什么比数据更重要的了.我们研究统计分类标准.统计调查方法.统计数据采集方式.统计数据加工处理方法.统计数据评估技术,都是为了获取真实准确.完整及时.代表性强.分类科学.经济适用的统计数据. 大数据时代的到来,既给政府统计带来重大发展机遇,也带来严峻挑战. 一.大数据在政府统计中的应用 国家统计局高度重视大数据在政府统计中的应用.到目前为止,已经与17家大数据企业签订了战略合作协议.当然,目前大数据在中国政府统计中的应用仍处于起步阶段,主要表现在两个方面:一是大数据成为政

从政府统计到政府大数据统计

在互联网大数据发展中,要把各种各样的数据链接到具有统计思想.统计标准.统计流程.统计方法的科学过程上,形成互联网云技术状态的大数据统计,从而为创造新的大数据生态提供统计科学理论方法,也为与外部无缝连接成大系统数据体系.推动全社会产业分工合作.创造更大的生产力,提供统计工具.因此,统计学本身的发展,也要求政府统计成为政府大数据统计. 统计形式主要表现为统计数据和统计分析,统计数据是统计分析的基础,但在政府统计形式上,则主要从数据出发.统计设计.统计调查及数据搜集整理追求的是一个能够描述一个国家全部

二○一三:中国政府统计之大数据元年

2013年即将进入最后一个月份.无论是否认可或采纳接下来的说法,但已经成为过去时和正在成为现在时的工作表明,2013年注定要成为中国政府统计的大数据元年. 曾经有两幅曲线图形象地反映了大数据受关注的程度,即谷歌和百度以"大数据"为关键词的搜索曲线.前者在从2011年到2012年的时段,后者在从2012年到到2013年的时段,都有了一个明显.甚至可以说是陡然的上升.无疑,上升的曲线表明,大数据的炙手可热,其实只是近两年来的事情.而作为最大的中文搜索引擎,百度曲线的变化,表明大数据火在中国

大数据在统计中的应用初探

大数据是信息时代的必然产物,是人们在日常工作.学习.生活中,使用以现代网络.特别是以互联网为特征的现代信息技术和其他各种电子计量设备而产生的海量信息.对海量信息的采集.存储.分析.整合.控制而得到的数据就是大数据.中央<关于深化统计管理体制改革提高统计数据真实性的意见>中指出,大力推动大数据在政府统计工作中的应用,将电子化行政记录和各类交易.交互.传感等大数据作为政府统计基础数据的重要来源,努力构建现代化新型统计调查体系. 大数据统计应用有什么意义?还有哪些问题和障碍?如何加快大数据在统计工作