大数据下的统计学:问题优先而非解法优先

      在大数据时代,统计学应当如何发挥它的优势?很多统计学家都在探讨这个问题,包括Steve M. 和Larry W. 也在他们的博客探讨了有关的内容。而笔者的科研方向主要是研究基因组学,也通常被列为统计学和统计学家发挥巨大作用的“大数据”的领域之一,所以对这个问题也思考了一段时间。

    一个自然而然的问题就是:“为什么在基因学研究中,统计学家可以取得如此大的成功?”笔者这里想借用Brian C.的一句话来解释:Problem first, not solution backward (问题优先而非解法优先)

    在当下,“大数据”这个词的广泛应用得益于数据的获取变得越来越便宜。一个例子就是DNA序列扫描的价格。在其他领域中也是一样,例如人体运动的数据记录,Fitbits,Google books,Twitter上的社交网络数据等等。这些数据的获取或许在十年前有着令人生畏的价格,但现在却绝非难事。

 作为一名统计学家,我们希望从这些非常不同的领域中寻找大数据普适的原则:

 1.这些数据都无法在一个简单的笔记本电脑上进行分析(不论从几千兆到兆兆字节)。

 2.这些数据形式复杂,结构庞杂,如有非结构化的文字信息,有缺失很多数据的json文件,含有质量指标的fastq文件等等等等。

那么为什么在基因研究中,统计学家能取得如此大的成功呢?在笔者看来,很多原因就是干这一行的统计学家愿意花上很长的时间,去处理那些很细节的数据问题。比如,在大数据上运行哪怕是最为简单的统计模型,也要花上数个小时的时间,抑或处理一个得到的基因序列并对它们进行必要的修复也同样是非常耗时耗力。正因为愿意去花时间理解并处理这些很实际的、很细节的问题,统计学家才能得到那些别人无法得到的数据,才使得统计学家在基因学科上取得了今天的成就。

这些事情并不轻松,也并不“高雅”。很多统计学家也不称之为“统计”。Steve在他的博客中提到:“坦诚地说,我对于现在的统计学很少能提出有价值的新观点表示失望。”我想,他的观点是有很多统计学家赞同的。大意是说由于在大数据上面目前没有什么好的理论提出,所以在大数据方面也就没什么值得称为上乘的“新观点”。他们的这种观点就是solution backward (解法优先):我们需要漂亮的理论,然后把它应用到具体问题。

与之不同,我们提出的方式,就是problemforward (问题优先)。正因为当下得到数据变得越来越便宜,我们也就可以分析和学习很多以前无法完成的课题。计算机科学,物理学,生物基因以及其他一些领域在大数据上面一直保持领先正因为他们的研究者在数据分析上并不一定需要一个统计上“完美”的解答。他们更关注有科学意义的问题并愿意花时间,精力去处理那些繁琐的“大数据”来进行分析,从而达到目的。因此,他们能获得别人从未研究过的数据并从中提炼有价值的部分。

在基因学科中就有着很好的例子。DNA晶片的发明,对这个领域产生了革命性的影响。而后统计学家进入这个领域。他们和其他科研人员一起为了同样的科学问题,在实际数据上投入了大量的时间,精力来完成数据处理,或者开发能够处理数据的软件。在笔者看来,想要在大数据时代真正做出成果,首先要专注于那些有意义的科学问题,然后才是提出能解决科学问题的统计方法。这就需要我们重新去思考统计学。那些比如并行计算,数据再加工,数据可复制性,软件开发等等问题,其实和纯统计理论方法同样的重要。

当然,在大数据时代,统计学有着广泛的发挥空间,用我们独特的技能去处理这些新问题中的不确定性,但是这一切的前提都是我们要首先愿意去为了科学目标来处理那些关于数据方面繁琐的工作。

原文发布时间为:2014-02-27


时间: 2024-09-16 19:51:42

大数据下的统计学:问题优先而非解法优先的相关文章

大数据下的“商业学习实验”

一直以来电商圈都有一个问题,为何台湾的电商就怎么都发展不起来?这实在是可以"归罪于"他们太过于发达的超商门店,seven eleven 和全家便利店等开到到处都是,转角都能遇到爱.这也许是一方面,另一方面,是这些强大超商体系不断更新的技术商业知识体系,常有各种创意和最前沿的技术学习法.今天钛媒体电商研究院的电商课堂,就邀请<商业价值>编委刘梅来讲讲便利超市门店的"商业学习实验": 零售企业可能每天都会产生令人兴奋但有些风险的创意,这些点子要不要做?效果又

【阿里云产品公测】大数据下精确快速搜索OpenSearch

相信做过一两个项目的人都会遇到上级要求做一个类似百度或者谷歌的站内搜索功能.传统的sql查询只能使用like 或者FIND_IN_SET来实现.后者性能稍微好点但是必须要逗号分隔才可以实现匹配.甚至多条件的话还可能用到OR这是极影响系统性能的.        最近公司项目需要.主要是系统查询缓慢.并且查询精度不敢恭维.一开始想到的是Lucene 毕竟是一个开放源代码的全文检索引擎工具包 并且官方还在持续更新中.当时闲暇时间大概搞了将近一个星期的时间.索引的增删查改以及中文分词IKAnalyzer

甲骨文Thomas:大数据下的共存与集成

本文讲的是甲骨文Thomas:大数据下的共存与集成,随着电影碟中谍4在中国的热映,汤姆克鲁兹这个不老的神话又出现在电影荧幕,而就在2月末一个晴朗的下午,数据库届也迎来了"阿汤哥",一位在全世界范围内拥有着众多粉丝的Oracle技术大师Thomas Kyte. Thomas Kyte(以下简称Tom)是AskTom网站背后的老大,目前是Oracle公司核心技术集团的副总裁,从Oracle 7.0.9版本开始就一直任职于Oracle公司,通过自身20多年的经验,一直致力于和Oracle数据

广东横琴新区地税局打造“大数据下纳税遵从管理”

广东横琴自贸区自挂牌成立以来,登记注册企业已超20000家,其中已引进和在洽谈的世界500强企业52家,国内500强投资企业76家,各类企业总部858家."自贸区效应"带来了区域发展的提速增效,为横琴税收可持续增长奠定了坚实的经济基础. 随着今年5月营改增的全面实施,"互联网+税务"的深入推进,横琴地税人深深地认识到:打造创新驱动发展的税务信息和服务平台,加快创新资源集聚,推动税收体制创新驱动发展,既是促进辖区企业发展的重要途径,又是实现税收稳定.持续增长的必由之路

Informatica孙大山:大数据下的生意经

ZDNet至顶网软件频道消息:目前,很多企业在完成数据收集后,就把这些数据闲置甚至丢弃了,这是非常可惜的,因为数据对于每个企业来说都是非常宝贵的资源.Informatica中国区资深技术顾问孙大山在做客ZDNet直播访谈时表示,"大数据遍布企业的方方面面,它不仅可以帮助企业规划自身资源,对企业内部做到更全面的内视:大数据也可以帮助企业更好地了解用户,通过数据分析推出一些以客户为导向的产品或以客户为针对性的服务." 企业在做大数据项目时需要注意一点,那就是大数据并不是一朝一夕就能完成的工

大数据下,24小时精准医疗或将在2020年实现?

一款名为GTX One的生物计算加速平台现身,引发了业内对于精准医疗行业新的看法.这款GTX One加速系统,通过算法创新充分释放FPGA的计算能力,相当于将一台超级计算机压缩到一个小盒子里:一张FPGA加速卡就能达到60台高性能至强Xeon CPU服务器的计算性能,极大地缩短了生物信息数据的计算时间.事实上,通过生物数据与医疗行业结合,生物医疗行业正在经历高速发展.此次英特尔在京推出的"英特尔精准医疗伙伴计划(Intel BioIT Partners)",有望在2020年实现24小时

大数据时代:统计学是数据分析的灵魂

7月中旬以来,从中央到地方,今年上半年经济社会发展的统计数据陆续进入人们的视野.在观察.使用统计数据时,类似"大数据时代怎样用好数据"这样的话题,再次引起人们的关注. 7月20日出版的<人民日报>,刊发了清华大学统计学研究中心主任刘军做客人民日报.人民网<文化讲坛>时,对相关问题所做的介绍和分析.其内容包括: 什么是数据? 数据(data)在拉丁文里是"已知"的意思,在英文中的一个解释是"一组事实的集合,从中可以分析出结论"

动荡时代:机器智能与大数据下的阴霾

文章讲的是动荡时代:机器智能与大数据下的阴霾,记得在一部科幻电影中,一群人因为外星人的到来而在楼顶狂呼欢迎,但随之而来的先是巨大飞船下的一片阴影,接下来就是外星人的一束光炮,这群人和大楼随之灰飞烟灭.有的时候我们过多关注技术好的一面,但实际上技术与对社会的重构相叠加才真正塑造未来的具体形态.技术发展下去,必会逐步挖去现有社会的存在根基,直至社会需要再平衡,全面进入一个动荡的时代.占领华尔街也许正是这种变化的一种隐晦征兆,愤懑的人们面对这种变化其实是很迷茫的,他们只知道自己是99%,却不知道应该提

大数据下,谁来保护裸奔的个人隐私

有关大数据的段子近来在朋友圈中飞传.段子颇离奇搞笑,但内容大同小异.说有人电话订餐,报上会员卡号,便惊讶地听到其住址和公司.家庭.个人电话等信息.还被告知其胆固醇高,不宜吃海鲜比萨,母亲刚动过心脏手术,也不宜多吃比萨.原来,快餐店联着大数据系统.最吃惊的是,客服对其信用卡已刷爆,当天提款限额已超,此刻的位置信息等了如指掌,令顾客当场晕倒-- 故事虽是段子手的演绎,但反映出大数据时代,个人所有隐私都可能在网上裸奔的尴尬现状.以往,公众大多只关注诸如买房.保险.理财等个人信息易被泄露,但据报道,其实