《统计会犯错——如何避免数据分析中的统计陷阱》一一1.1 p值的力量

1.1 p值的力量

假设你在测试一种新的感冒药,其中新药可以确保一天之内消除所有感冒症状。为此,你找到20位感冒患者,给一半患者服用新药,其他人服用安慰剂。然后记录他们的感冒时长,找到服药与未服药患者的平均感冒时长。

这种测试有问题吗?进一步分析,不是所有的感冒都是同一种类型。平均来说,感冒时间通常要持续一周。但有一些感冒会持续两周甚至更久时间,也有一些持续几天就好了。可能服用新药的这一组患者都是较短时长的感冒,很快就好了。那么,又如何证明是药物起作用了,而不是这些患者运气好呢?

统计假设检验给出了解决办法。如果你知道典型的感冒时间 的分布,也就是说有多少患者得短期、长期和平均时长的感冒,据此可以给出一组随机样本的患者的感冒时长比平均时长更长或更短的概率。那么假设检验(或显著性检验)就可以回答这个问题:即使药物完全无效,那么试验产生以上观测结果的可能性有多大?

如果只对一个人进行药物测试,那么他的感冒时长比平均时长更长或者更短,都是不足为奇的。大部分感冒并不是非常理想的平均水平。但是如果对1000万个患者进行测试,而所有患者都是短期感冒,这种情况就不太可能是巧合了,更有可能是药物的效果。

科学家对这种直觉进行量化,给出了一个概念—— p值。

p值是在假设药物效果没有真实差异的情况下,差异等于甚至大于实际观测差异的概率[1]。

例如,你给100个患者服药,发现他们的平均感冒时长比对照组少一天,这时p值就是在药物无效的假设下,“他们的感冒时间比对照组少一天”这种情况完全是出于巧合的概率。你可能会说,p值依赖于效果大小,试验组感冒时间比对照组少一天的情况会比少四天的情况更为常见,也与试验组的患者数目有关。

记住,p值不是用来测度你多么正确,或者这个差异有多重要。反之,它是对“意外”的测度。如果假设药物无效,那么也只能用运气来解释两组的区别。然后p值越小,试验结果是意外或因为运气的可能性越大——或者说你的假设就是错误的,新药的确有效。

如何运用p值来解释“这些组之间是否有差异”?通常的经验法则是:当p<0.05时,区别是“统计显著”的。选择0.05不是出于特别的逻辑或统计的原因,而是在多年的使用过程中形成的科学惯例。

注意到应用p值时,假设试验各组没有区别。这是显著性检验的一个反直觉的特征:如果想要证明药物有效,就去证明数据不支持药物无效。因此,p值可以扩展到任何一种用数学表示某个要推翻的假设的情形。

但是p值也有它自身的局限。记住,p值是指对意外的测度,一个较小的p值意味着更加意外。它不是影响大小的测度。可以通过测量大的影响获得一个小的p值(这种药物可以使人的寿命延长4倍),或者用较大的确定性测量一个较小的影响。因为一种药物或干预通常是有一些效果的,所以可以收集足够的数据,检测极其微小但相对不太重要的差异,然后得出统计显著性的结果。Bruce Thompson写道:

统计显著性检验可能包含一个套套逻辑(tautology)[2],研究人员已经收集了数百个产品“失效”的测试数据,然后通过一个统计检验来评价产品是否真的“失效”。而事实上,研究人员早已知道结果,因为他们收集数据时就知道数据都是已经“失效”的。考虑到知识的累积,这一套套逻辑已经造成了相当严重的后果1。
简而言之,统计显著性不意味着任何实际意义的显著性。统计显著性并不会给出太多信息。一个统计显著的区别可能只是噪声,或者体现了真实的影响,但是这一影响需要更多的数据才能确定。

没有数学工具可以判断出假设是真是假;也可以考虑假设与数据是否一致。如果数据太少或者不清楚,那么结论也就不确定了。

统计的心理暗示
p值局限性的背后还有一些关键核心的问题。假设运气(而不是药物或者干预)是实验中唯一因素,p值是获得结果等于或大 于观测值的概率。这就意味着p值迫使你去质疑从未发生过的结果——也就是比你的结果更极端的结果。获得这样的结果的概率有赖于实验设计,这使p值具有“心理暗示特征”:两种不同的实验设计可以产生相同的观测数据,但会得到不同的p值,因为未观测的数据是不同的。

假如我连续问你12个关于统计推断真假的问题,你正确回答了9个。我要检验假设:你是否是依靠随机猜想答对了这些问题?为此,我要计算你依靠随机猜想答对至少9个问题的概率。假设你等概率地选取“正确”和“错误”,计算得p=0.073[3]。因为p>0.05,很有可能你就是随机猜的答案。若确实如此,你将会在规定时间内以7.3%的概率答对9个甚至更多的问题2。

但也可能我并不是只打算问你12个问题。如果我有一台电脑可以无限地产生问题,直到你答错3个。现在我要计算在15、20、47个问题之后你答错3个问题的概率,甚至是在175、231个问题之后你仍旧没有答错3个的概率。计算可得p=0.033。因为p<0.05,我的结论就是:你依靠随机猜想不太可能得到这样的结果。

这是非常麻烦的:两个试验收集到相同的数据,但是却有不一样的结论。莫名其妙,p值竟然能懂你的意图!

奈曼-皮尔逊检验
为了更好地理解p值,我们要了解一些统计学的历史。统计显著性检验有两个主要分支。关于统计重要性检验的思想主要有两个流派。第一个分支是费希尔(R.A.Fisher)于1920年提出。费希尔将p值看作理解一个数据集是如何令人意想不到的一种简便、非正式的方法,而不是假设检验的严格正式流程中的一个环节。只有当p值与试验者的先验经验以及专业知识结合时,它才能更好地解释新观测的数据。

在费希尔的著作问世以后,奈曼和皮尔逊(Jerzy Neyman 和Egon Pearson)尝试解决了一些无法解决的问题。例如,在感冒药物有效性检验中,只要你能从比较中得到 p 值,你就可以尝试通过均值、中位数或者其他任何统计量,来比较两个对照组的水平。但是你如何知道哪种选择是最好的?这个最好的选择对假设检验又意味着什么?

在科学研究中,控制假设检验的两类错误是至关重要的:第一类错误(false positives),就是将无效说成有效(取伪);第二类错误(false negatives),则是将有效判断成无效(弃真)。在一定程度上,第一类错误和第二类错误是一枚硬币的两面。如果我们比较激进,则容易犯第一类错误;如果我们过于保守,第二类错误会主动找上门来。

奈曼和皮尔逊发现虽然不能同时完全消除两类错误,但是可以给出一种规范的决策过程来确保犯第一类错误的可能性只在预先确定的比率下发生。他们将这个比率称为显著性水平 α(false positives rate),试验者可以依据他们的经验和期望基础上设置合适的α。举例来说,如果我们先要设立10%的第一类错误率,就令α等于0.1。但是如果我们希望决策更加保守,那么就可以将α设置为0.01或者更小。为了比较哪种检验过程是最好的,我们可以考察在给定α的条件下,哪一种检验过程犯第二类错误的比率是最低的。

实践中应该怎么做呢?在奈曼-皮尔逊体系下,我们定义一个原假设,即一个“无效”(效应为零)的假设,同时定义一个备择假设,如“效应大于零”。然后构建一个检验去比较这两个假设,并且决定在原假设正确时我们期望得到怎样的结果。我们利用 p值来实施奈曼-皮尔逊检验程序,即如果p<α,则拒绝原假设。不像费希尔的检验过程,此方法没有将注意力放在揭示任何一个特定的试验证据的强度,而只关心决定原假设是否被拒绝。p值的大小,除了“拒绝原假设”,无法用来比较试验或得出其他任何结论。正如奈曼-皮尔逊所言。

我们倾向于认为只要涉及一个特殊的假设,不存在建立在概率理论基础上的检验能够单独提供关于这个假设正确或者错误的有价值的证据。

但是,我们可以从另一个角度审视检验的目的。我们不希望知道每个独立假设的真假,但是可以探索引导我们关于他们行为的规则,接下来就要保证在长期的经历中我们不会常常犯错3。
虽然奈曼和皮尔逊的方法在概念上与费希尔的方法不同,但是实践科学家常常将两者合并4,5,6。奈曼和皮尔逊的方法就是用一个预先选定的p值门槛确保长期的第一类错误率获得“统计显著”。但是假定你进行一次试验得到p值为0.032,若门槛为p<0.05,这个时候便是统计上显著的。但是若门槛缩小成p<0.033,你的结果还是统计显著的。因此说我的第一类错误率为3.2%是十分诱人的,实际上这是常见的一种误解。

这种解释存在问题。仅仅通过一次试验不能得到第一类错误率。它是由检验过程决定的,而不是由一次试验的结果得出的。所以当你用一个检验过程来获得一个长期的第一类错误率α,不管结果是怎么样的,你都不能说每一次试验都会有一个真实的 p 值和对应的第一类错误率。

时间: 2024-11-10 05:22:55

《统计会犯错——如何避免数据分析中的统计陷阱》一一1.1 p值的力量的相关文章

数据分析中会常犯哪些错误,如何解决?

错把相关性当成因果性 correlation vs. causation 经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了.这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活.学习.工作中,时不时的就会有人犯这样的错误. 举个栗子 数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖

数据分析中会常犯哪些错误,如何解决的?

错把相关性当成因果性 correlation vs. causation 经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了.这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活.学习.工作中,时不时的就会有人犯这样的错误. 举个栗子 数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖

JavaScript中switch判断容易犯错的一个细节_基础知识

switch语句与if语句的关系最为密切,也是其它编程语言中普遍使用的一种流程控制语句,但switch的匹配是全等模式,如果不注意这个细节则写程序时往往会出错. 代码: var n = '5'; switch(n){     case 5:         alert('执行case分支');         break;     default:         alert('执行default分支'); } 结果: 可能很多人会误以为以上程序会走case分支,结果却走了default分支.难

优云运维:漫谈redis在运维数据分析中的去重统计方式

今天,我和大家分享下redis在运维数据分析中的去重统计方式.为了避免混淆,本文中对于redis的数据结构做如下约定: SET:saddkey member ZSET:zaddkeyscoremember HYPERLOGLOG:pfaddkeyelement STRING:setbitkeyoffset value 名词约定: 维度:比如版本.操作系统类型.操作系统版本.运营商.设备型号.网络类型等 复合维度:由两个或多个维度交错产生的维度,比如某个版本下的某个设备型号. 去重统计在数据化运维

有些数据分析中常踩的坑,当心别掉进去

错把相关性当成因果性 correlation vs. causation 经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了.这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活.学习.工作中,时不时的就会有人犯这样的错误. 举个栗子 数据显示,当科比出手 10-19 次时,湖人的胜率是 71.5%;当科比出手 20-29 次时,湖人的胜率骤降到 60.8%;而当科比出手 30

oracle数据泵导入分区表统计信息报错(一) 问题的现象

今天在进行数据泵导入操作时,发现一个bug. 数据库版本Oracle 10203 for Solaris RAC,执行导入在处理表的统计信息时报错,错误信息为:ORA-39083和ORA-917. 经过仔细排查,对比源数据库分析情况和目标数据库的表分析情况,发现所有的分区表的统计信息都没有导入. 基本确认问题是IMPDP在处理分区表的统计信息时出现了问题. 可惜现在问题无法通过构造案例来重现:在目标数据库中(RAC环境)尝试建立分区表并执行数据泵的导出和导入,无法重现问题.将源数据库中出现问题的

读《应试教育的死穴,恰在于堵死了孩子“犯错”的空间》有感

读<应试教育的死穴,恰在于堵死了孩子"犯错"的空间>有感          "科技创新带来的利润最高,同时在生产要素(资源.能源.劳动力)已经达到极限的时候,中国要想发展只能依靠创新."          最新看了一篇文章---<应试教育的死穴,恰在于堵死了孩子"犯错"的空间>,联系到笔者上周参加了一个"龙芯"负责人胡伟武的参与交流会(议题是:"中国制造之自主CPU发展道路-兼谈龙芯工作体会&

“犯错”是件坏事吗?

               刚刚读应试教育的死穴,恰在于堵死了孩子"犯错"的空间是,感觉恰恰的非常合适的表达当前应试教育的问题,一代代的小孩儿被应试教育所困,老师总是用经验主义告诉同学们:"这是我这么多年总结出来的,你们就照着这个套就行",父母呢,也一样,经常告诉我们"弄这个干嘛呀?这样不好,那样不对",在长辈的心目中,他们经历过得就不想让自己的孩子.学生再次经历,可是如果没有爱迪生的一次次失败,没有牛顿的奇思妙想,我们不会今天对宇宙对世界的这

数据分析中遇到的“圆”

与十年前不同,当今令数据分析师迷茫的,可能不再是数据很少,而是数据很多;今天不是不知道玩好数据的重要性,而是不知道玩错数据的危害性,即所谓甜蜜的烦恼.一个数据分析师,如果能体会到,当下数据存在的核心问题,并且能清楚解决办法,就可以精益求精了. 这次想跟大家讲的是一个由受.想.行.识四个部份所组成生生不息的圈(Feedback Loop),彼此互相推进. 听起来有些玄乎,不过结合例子说就可能有意思了. 一.受 "受",即是对周围世界的感受 当前,作为一个电商,去感受公司经营状况的方式越来