1.1 p值的力量
假设你在测试一种新的感冒药,其中新药可以确保一天之内消除所有感冒症状。为此,你找到20位感冒患者,给一半患者服用新药,其他人服用安慰剂。然后记录他们的感冒时长,找到服药与未服药患者的平均感冒时长。
这种测试有问题吗?进一步分析,不是所有的感冒都是同一种类型。平均来说,感冒时间通常要持续一周。但有一些感冒会持续两周甚至更久时间,也有一些持续几天就好了。可能服用新药的这一组患者都是较短时长的感冒,很快就好了。那么,又如何证明是药物起作用了,而不是这些患者运气好呢?
统计假设检验给出了解决办法。如果你知道典型的感冒时间 的分布,也就是说有多少患者得短期、长期和平均时长的感冒,据此可以给出一组随机样本的患者的感冒时长比平均时长更长或更短的概率。那么假设检验(或显著性检验)就可以回答这个问题:即使药物完全无效,那么试验产生以上观测结果的可能性有多大?
如果只对一个人进行药物测试,那么他的感冒时长比平均时长更长或者更短,都是不足为奇的。大部分感冒并不是非常理想的平均水平。但是如果对1000万个患者进行测试,而所有患者都是短期感冒,这种情况就不太可能是巧合了,更有可能是药物的效果。
科学家对这种直觉进行量化,给出了一个概念—— p值。
p值是在假设药物效果没有真实差异的情况下,差异等于甚至大于实际观测差异的概率[1]。
例如,你给100个患者服药,发现他们的平均感冒时长比对照组少一天,这时p值就是在药物无效的假设下,“他们的感冒时间比对照组少一天”这种情况完全是出于巧合的概率。你可能会说,p值依赖于效果大小,试验组感冒时间比对照组少一天的情况会比少四天的情况更为常见,也与试验组的患者数目有关。
记住,p值不是用来测度你多么正确,或者这个差异有多重要。反之,它是对“意外”的测度。如果假设药物无效,那么也只能用运气来解释两组的区别。然后p值越小,试验结果是意外或因为运气的可能性越大——或者说你的假设就是错误的,新药的确有效。
如何运用p值来解释“这些组之间是否有差异”?通常的经验法则是:当p<0.05时,区别是“统计显著”的。选择0.05不是出于特别的逻辑或统计的原因,而是在多年的使用过程中形成的科学惯例。
注意到应用p值时,假设试验各组没有区别。这是显著性检验的一个反直觉的特征:如果想要证明药物有效,就去证明数据不支持药物无效。因此,p值可以扩展到任何一种用数学表示某个要推翻的假设的情形。
但是p值也有它自身的局限。记住,p值是指对意外的测度,一个较小的p值意味着更加意外。它不是影响大小的测度。可以通过测量大的影响获得一个小的p值(这种药物可以使人的寿命延长4倍),或者用较大的确定性测量一个较小的影响。因为一种药物或干预通常是有一些效果的,所以可以收集足够的数据,检测极其微小但相对不太重要的差异,然后得出统计显著性的结果。Bruce Thompson写道:
统计显著性检验可能包含一个套套逻辑(tautology)[2],研究人员已经收集了数百个产品“失效”的测试数据,然后通过一个统计检验来评价产品是否真的“失效”。而事实上,研究人员早已知道结果,因为他们收集数据时就知道数据都是已经“失效”的。考虑到知识的累积,这一套套逻辑已经造成了相当严重的后果1。
简而言之,统计显著性不意味着任何实际意义的显著性。统计显著性并不会给出太多信息。一个统计显著的区别可能只是噪声,或者体现了真实的影响,但是这一影响需要更多的数据才能确定。
没有数学工具可以判断出假设是真是假;也可以考虑假设与数据是否一致。如果数据太少或者不清楚,那么结论也就不确定了。
统计的心理暗示
p值局限性的背后还有一些关键核心的问题。假设运气(而不是药物或者干预)是实验中唯一因素,p值是获得结果等于或大 于观测值的概率。这就意味着p值迫使你去质疑从未发生过的结果——也就是比你的结果更极端的结果。获得这样的结果的概率有赖于实验设计,这使p值具有“心理暗示特征”:两种不同的实验设计可以产生相同的观测数据,但会得到不同的p值,因为未观测的数据是不同的。
假如我连续问你12个关于统计推断真假的问题,你正确回答了9个。我要检验假设:你是否是依靠随机猜想答对了这些问题?为此,我要计算你依靠随机猜想答对至少9个问题的概率。假设你等概率地选取“正确”和“错误”,计算得p=0.073[3]。因为p>0.05,很有可能你就是随机猜的答案。若确实如此,你将会在规定时间内以7.3%的概率答对9个甚至更多的问题2。
但也可能我并不是只打算问你12个问题。如果我有一台电脑可以无限地产生问题,直到你答错3个。现在我要计算在15、20、47个问题之后你答错3个问题的概率,甚至是在175、231个问题之后你仍旧没有答错3个的概率。计算可得p=0.033。因为p<0.05,我的结论就是:你依靠随机猜想不太可能得到这样的结果。
这是非常麻烦的:两个试验收集到相同的数据,但是却有不一样的结论。莫名其妙,p值竟然能懂你的意图!
奈曼-皮尔逊检验
为了更好地理解p值,我们要了解一些统计学的历史。统计显著性检验有两个主要分支。关于统计重要性检验的思想主要有两个流派。第一个分支是费希尔(R.A.Fisher)于1920年提出。费希尔将p值看作理解一个数据集是如何令人意想不到的一种简便、非正式的方法,而不是假设检验的严格正式流程中的一个环节。只有当p值与试验者的先验经验以及专业知识结合时,它才能更好地解释新观测的数据。
在费希尔的著作问世以后,奈曼和皮尔逊(Jerzy Neyman 和Egon Pearson)尝试解决了一些无法解决的问题。例如,在感冒药物有效性检验中,只要你能从比较中得到 p 值,你就可以尝试通过均值、中位数或者其他任何统计量,来比较两个对照组的水平。但是你如何知道哪种选择是最好的?这个最好的选择对假设检验又意味着什么?
在科学研究中,控制假设检验的两类错误是至关重要的:第一类错误(false positives),就是将无效说成有效(取伪);第二类错误(false negatives),则是将有效判断成无效(弃真)。在一定程度上,第一类错误和第二类错误是一枚硬币的两面。如果我们比较激进,则容易犯第一类错误;如果我们过于保守,第二类错误会主动找上门来。
奈曼和皮尔逊发现虽然不能同时完全消除两类错误,但是可以给出一种规范的决策过程来确保犯第一类错误的可能性只在预先确定的比率下发生。他们将这个比率称为显著性水平 α(false positives rate),试验者可以依据他们的经验和期望基础上设置合适的α。举例来说,如果我们先要设立10%的第一类错误率,就令α等于0.1。但是如果我们希望决策更加保守,那么就可以将α设置为0.01或者更小。为了比较哪种检验过程是最好的,我们可以考察在给定α的条件下,哪一种检验过程犯第二类错误的比率是最低的。
实践中应该怎么做呢?在奈曼-皮尔逊体系下,我们定义一个原假设,即一个“无效”(效应为零)的假设,同时定义一个备择假设,如“效应大于零”。然后构建一个检验去比较这两个假设,并且决定在原假设正确时我们期望得到怎样的结果。我们利用 p值来实施奈曼-皮尔逊检验程序,即如果p<α,则拒绝原假设。不像费希尔的检验过程,此方法没有将注意力放在揭示任何一个特定的试验证据的强度,而只关心决定原假设是否被拒绝。p值的大小,除了“拒绝原假设”,无法用来比较试验或得出其他任何结论。正如奈曼-皮尔逊所言。
我们倾向于认为只要涉及一个特殊的假设,不存在建立在概率理论基础上的检验能够单独提供关于这个假设正确或者错误的有价值的证据。
但是,我们可以从另一个角度审视检验的目的。我们不希望知道每个独立假设的真假,但是可以探索引导我们关于他们行为的规则,接下来就要保证在长期的经历中我们不会常常犯错3。
虽然奈曼和皮尔逊的方法在概念上与费希尔的方法不同,但是实践科学家常常将两者合并4,5,6。奈曼和皮尔逊的方法就是用一个预先选定的p值门槛确保长期的第一类错误率获得“统计显著”。但是假定你进行一次试验得到p值为0.032,若门槛为p<0.05,这个时候便是统计上显著的。但是若门槛缩小成p<0.033,你的结果还是统计显著的。因此说我的第一类错误率为3.2%是十分诱人的,实际上这是常见的一种误解。
这种解释存在问题。仅仅通过一次试验不能得到第一类错误率。它是由检验过程决定的,而不是由一次试验的结果得出的。所以当你用一个检验过程来获得一个长期的第一类错误率α,不管结果是怎么样的,你都不能说每一次试验都会有一个真实的 p 值和对应的第一类错误率。