统计学教会我们的10件事

在数据统计中,有10个概念与大数据分析密切相关。这10个概念聚焦在数据预测准确性,交互分析等方面。

在之前的帖子中,我曾指出大数据中一个关键问题,即忽略了应用统计学。但是许多应用统计学中犀利的概念确实与大数据分析密不可分。为此,我觉得我得回答我上一贴的第二个问题:“当我们在思考大数据时代时,我们到底理解了哪些统计学概念?” 鉴于网络总是喜欢列“前十名单”,那我也就列出十个概念。不过如果人们感兴趣深入探讨的话,这些概念当然不会止步于十。当然,大家对于我的观点可能会有不同看法,我认为它们普遍来说也不是什么坏事。

1. 追求预测准确性,则平均多个预测模型

大体上讲,经常在Kaggle 比赛或Netflix奖中获胜的预测算法都是把多重模型混合到一起来执行预测的。这样做的意义在于,如果将多种预测算法进行平均(或取大多数投票),你可以在不舍去偏差的情况下减少变量。此做法早先有一个更简化的名字,因其基于引导样品以及建立多重预测方程,所以简化为Bagging(为bootstrap aggregating缩写)。“随机森林”---是另一个非常成功的基于一个类似分类树概念的预测算法。


2. 检测多个假设时,做多重测试校正

此论点指出了在进行多个检测中标准假设检验的问题。甚至当零检验是正确时,经典假设检验是为检验数据5%显著性而设计的。在纠正多重检验中,一个很普遍的选择就是使用错误发现率来控制所谓的显著性是错误发现的比率。人们喜欢这种方法是因为其可以视错误发现为发现信号中的干扰率。

Benjamini 和Hochber 已为错误发现率定义并提出了一套控制错误发现率的程序。同时,Storey 和Tibshirani也为错误发现率做了一份详细介绍。


3. 当你拥有空间、距离或时间测量数据时,你需要使其变为平滑曲线

这是统计学里最老生常谈的概念之一(回归是一个平滑的形式,Galton早已将其普及化)。我个人很喜欢局部加权散点图,如下图是一个局部加权散点图的示意图。


4. 在用电脑分析你的数据之前,记得先给数据制图

业余分析师最容易犯的错误就是直接去用些花哨的软件建一个模型去框住你的大数据集。如果不事先制图,你就会错过一些最显而易见的东西,比如安斯库姆四重奏。

制图有太多的表现形式,不过在比较多个技术测量中,Bland-Altman图(在基因组学中被称为MA-图)渐渐变得尤为重要。R提供了大量的图表选择, ggplot2使图表更美观。

5. 交互分析是真正了解数据集的最佳方法

此点跟第四点有关;如果你想真正理解一个数据集,你就得完完全全把它玩透。你得做表格,制图,识别突变,异常值,缺失值及其它数据问题。要做到这些你就得快速地进行交互数据分析。其中的一个一蹴而就的方法就是使用诸如Hive, Hadoop, 或Pig的数据分析软件完成整个数据的分析。但是还有一个更简单、更好、更经济的方法便是使用随机样本。就如Robert Gentleman 所说“让大数据变得越小越好,越快越好。”


6. 知道样本的真实大小

数据集大小很唬人。试想,你有一个白底黑圈像素图。当分辨率不断升高,文件的尺寸也会变大,但是图片的信息量并不会有变化(因此有了矢量图)。同理,在基因组学中,你测量的译出遗传信息(决定数据的大小)不是样本大小,而是个体数量。在社交网络中,社交网络中的人数也许并不是样本尺寸。如果网络很密集,那么样本相比下可能要小得多。总的来说,样本越大越好,但是样本大小与数据集大小并非一直密切相关。


7.除非你使用随机试验,否则混淆因素会让你夜不能寐。

在统计分析中混杂是一个非常基本的概念。它会导致伪相关, 这也是营养学研究非常艰难的原因。首先是很难随机化人们的饮食,然后饮食健康的人与饮食不健康的人在生活的其它重要方面也可能是不同的。大数据集中混杂因素可能是对技术变量的测量方法,再或者是随着时间在Google上变化的词条。无论什么时候,当你有了一个新发现时,你的第一反应应该是“什么是潜在混杂因素”。

8. 提前定义好成功的标准

这一点也许是最简单,但却是在统计学和决策理论中最关键的一点。有时候你的目标可能是发现一些新关联;如果你提前将此设为研究的目标,当然是个不错的想法。应用统计学教会我们的一件事就是:当发现结果与现实严重偏差时,请更改你的标准。所以当你发现相关关系时,不要以为你可以预测一个新结果或已发现了一个因果关系。


9. 确保你的编码和数据是可用的并把你的数据交给专业人士检查

很多人在我上一篇文章中指出,Reinhart and Rogoff 问题没有涉及大数据。但是即使是小数据例子,分析中也出现了一个错误。在大数据和合成模型中,这个问题就更加重要了。Mozilla Science 正在做一个关于数据分析编码校核的工作。但是你如果有朋友可以帮你检测你的代码,你分析中的各种小问题就会暴露出来。


10. 问题在先方案在后

应用统计学中的诱惑之一就是用你熟知的一个工具(回归)去解决所有问题(流行病问题)。在大数据中也有类似的用一个工具(如Hadoop, Pig, Hive, NOSQL databases, Distributed Computing, GPGPU等)解决所有问题的诱惑,然后很容易让我们忽略了我们是否能推断X与Y相关或者X能预测Y这些问题。

原文发布时间为:2015-08-08

时间: 2024-07-28 19:29:48

统计学教会我们的10件事的相关文章

10件事还原CIA绝密文件泄露事件真相

本文讲的是10件事还原CIA绝密文件泄露事件真相,本周二(3月7日),维基解密曝光了8761份据称是美国中央情报局(CIA)网络攻击活动的秘密文件,这些数据代号为"Vault 7",文件揭示了CIA入侵iPhone.Android手机.智能电视以及Windows.Mac和Linux操作系统的强大能力. 据悉,Vault 7还只是"元年(Year Zero)"泄漏系列的一部分,维基解密将在接下来几天公布新的文件.Vault 7是记录美国中央情报局(CIA)秘密攻击活动

[转载] Flash开发者需要知道的10件事

来源:http://www.infoq.com/cn/news/2010/02/Flash-ten-things 此前,我们发布的新闻谈到了每个Flex开发者需要知道的10件事,本文将继续这个主题,谈谈每个Flash开发者需要知道的10件事. 近日John Lindquist谈到了在为Roundarch公司招聘Flash/Flex开发人员时的一些感受.他认为最难的地方在于问什么问题才能最好地了解到应聘者的Flash /Flex开发技能.因此,他给出了一个列表并说到:"根据我的经验,通过这个列表能

从初级到中级,你需要做的10件事

Justin James曾发表过一篇博文<10 tips for advancing from a beginner to an intermediate developer>,和我们一起分享怎么样才能完成程序员从初级到中级的蜕变,在这里翻译了一下转,希望给大家有所帮助. 在一封与TechRepublic会员交流的邮件当中,他提到了面向程序员的博客.文章及杂志分成以下两类:面向初学者类("hello world"这种类型的教程)以及面向专家类(MSDN杂志).这个观点是很不

最让程序员沮丧的 10 件事,你中了几枪?

软件开发是一个挺不错的工作,不过同时也像任何其他工作一样有着不好的一面.这里列出了大部分程序员对于写代码无法忍受的 10 件事. 对于非程序员来说,他们的工作看起来非常幸福.需求很高.待遇很好,公司提供各种各样的补贴福利等等.然而实话实说,虽然以上所说都不为虚,这份工作就像其他任何工作一样充满了让程序员们抓狂地扯下仅存的几根头发的烦恼.一天当中可以有好几件事能把一个普通程序员逼迫到处于崩溃的边缘. 基于来自在线论坛里真实程序员们的评论和投票,请这 10 个程序员最感到沮丧的事.如果看过之后,你还

注意!PHP 7中不要做的10件事_php实例

切记,在PHP 7中不要做的10件事 1. 不要使用 mysql_ 函数  这一天终于来了,从此你不仅仅"不应该"使用mysql_函数.PHP 7 已经把它们从核心中全部移除了,也就是说你需要迁移到好得多的mysqli_函数,或者更灵活的 PDO 实现.   2. 不要编写垃圾代码  这一条可能易于理解,但是会变得越来越重要,因为 PHP 7 的速度提升可能会隐藏你的一些问题.不要仅仅满足于你的站点速度,因为迁移到 PHP 7 才让它变快.  为了理解速度有多重要,以及如何把事情做得更

学习和使用 PHP 应该注意的10件事

学习和使用 PHP 应该注意的10件事 1 多阅读手册和源代码 没什么比阅读手册更值得强调的事了–仅仅通过阅读手册你就可以学习到很多东西,特别是很多有关于字符串和数组的函数.就在这些函数里面包括许多有用的功能,如果你仔细阅读手册,你会经常发现在以往的项目开发过程中,很多时候你在"重复发明轮子",而实际上你只需要一个核心函数就可以完成相应的功能.手册是你的朋友.另外,现在有很多使用PHP开发的开源程序.为什么不去学习和借鉴呢?下载一份开源的PHP应用程序的源代码,仔细阅读它吧.也许越大的

从现在开始,如果使用网络做这10件事就是违法犯罪!

      在各种电子软件为我们带来便利的同时,个人信息泄露的困扰也时有发生,<中华人民共和国网络安全法>6月1日起正式实施,这部法律将怎样影响你我的网络生活,又将如何为个人信息安全护航呢?现就以下这10件事为大家以案释法. 一.使用网络实施诈骗,违法! 身为高三学生,本应全心备战高考,山西交城的两名高考生却动起歪心思,在网上卖起了高考答案.他们建立了一个QQ群,随即在群内发布高考试题答案代理商信息,以能买到答案为由,先后实施诈骗活动5次,涉案金额2万元. 针对使用网络实施诈骗的行为,<

从现在开始,如果使用网络做这10件事就是违法!

在支付宝.微信等各种电子软件为我们带来便利的同时,个人信息泄露的困扰也时有发生,这不,<中华人民共和国网络安全法>于6月1日起正式实施啦,它们将怎样影响你我的网络生活,又将如何为个人信息安全护航呢?正义君现在就以下这10件事为大家普法,睁大眼睛看仔细咯! 一.使用网络实施诈骗,违法! 身为高三学生,本应全心备战高考,山西交城的两名高考生却动起歪心思,在网上卖起了高考答案.他们建立了一个QQ群,随即在群内发布高考试题答案代理商信息,以能买到答案为由,先后实施诈骗活动5次,涉案金额2万元. 针对使

脸萌和Yo教会我们的3件事:文字正在给图片让位

一个拼接个人漫画形象的App,在6月的第一周里,用户数增长2000万,吸引了来自私募股权基金IDG资本的400万元投资,A轮融资计划近千万;一个只能向好友发送一个单词"Yo"的App,在上线之前拿到了包括Mobli CEO莫舍尔·霍盖格(Moshe Hogeg)在内的120万美元的投资,在愚人节上线之后,用户已经互发四百万条Yo,成为以色列排名第一的iPhone应用--这是脸萌和Yo一鸣惊人的故事. 针对脸萌和Yo的走红,评论界瞬间划分成了两派,一方认为这其中有很大程度的资本泡沫,就产