6.7 k个独立样本的检验
SPSS 统计分析从入门到精通(第2版)
要解决多于两个的独立样本之间是否具有相同分布的问题,需借助于多个独立样本检验(test for several independent samples)方法。它的基本原理与两个独立样本检验相同。两个独立样本检验是多个独立样本检验中最基本的形式。
6.7.1 原理与方法
多个独立样本检验的方法主要有:Kruskal-Wallis H检验、中位数(Median)检验和Jonckheere- Terpstra检验。
Kruskal-Wallis H检验为Mann-Whitney U检验的扩展,类似于非参数一维方差分析。它研究分布位置上的差异,利用多个样本的秩和统计量推断它们所代表的总体分布是否相同。此方法还假设抽样的总体是连续的和相同的。Median方法用于检验多个样本是否来自具有相同中位数的总体。它研究总体分布在位置和形状上的差异,效率相对较低。这两种方法都假设k个样本是从预先没有排序的总体中抽样所得的。
当总体有先验的顺序排列(升序或降序)时,Jonckheere-Terpstra检验法比前面两种方法更为有效。例如,k个样本分别对应了k个不同的温度值,检验的零假设是不同温度下某化学反应的速度分布相同,备择假设是温度越高反应越快,这里的两个假设就是有序的,因此Jonckheere-Terpstra检验是最适当的。另外,只有安装了SPSS Exact Tests模块后,Jonckheere-Terpstra检验选项才是可用的。
下面以Kruskal-Wallis H检验为例,介绍多个独立样本检验的步骤。
(1)提出零假设与备择假设。
H0:各样本代表的总体分布相同;H1:各样本代表的总体分布不完全相同。
(2)求各样本的秩和统计量。
将各个样本的所有观测值混合后,按照由小到大的顺序排成1~n的秩次。不同样本的相同观测值(结),取其平均秩次;一个样本内的相同观测值,不求平均秩次。按样本把每个观测值的秩次一一相加,求出各样本的秩和统计量。
(3)求H统计量。
其中,R_i为第i个样本的秩和;n_i为第i个样本的样本量;N = {\sum n _i};t_j表示某个观测值重复的次数。
(4)统计推断。
当样本数k>3,n_i>5时,H近似地呈自由度为k−1的χ2分布,可对H进行χ2检验;当样本数较少时,有专门的H检验统计表供查询临界值。当H>H0.05或P >P0.05时,否定H0,即认为在0.05的显著性水平下,各样本代表的总体分布不完全相同。
6.7.2 数据和问题描述
本节仍利用文件“Chapter 06\儿童身高体重检验.sav”提供的数据,来检验不同年龄的儿童的身高、体重是否来自具有相同分布的总体,数据格式如6.5节的图6-14所示。
本例检验的原假设为H0:不同年龄儿童的身高、体重来自具有相同分布的总体;备择假设为H1:不同年龄儿童的身高、体重不是全部来自具有相同分布的总体。
6.7.3 k个独立样本检验实例分析
依次单击菜单“分析→非参数检验→旧对话框→k个独立样本”,执行k个独立样本检验过程,其主设置界面如图6-22所示。
参数设置。在左侧的变量列表选中“身高”和“体重”变量,单击从上至下第一个图片 106按钮,将其指定为检验变量;在左侧的变量列表单击选中“年龄[age]”变量,单击从上至下第二个图片 107按钮,将其指定为分组变量;单击“定义范围”按钮,弹出如图6-23所示的取值定义对话框。在“最小值”后输入“,在“最大值”后输入“,单击“继续”按钮返回主界面。分别勾选“检验类型”栏下的2个复选框:Kruskal-Wallis H和Jonckheere-Terpstra。
在图6-22中,“检验变量列表”用于从左侧的变量列表选入检验变量,且必须为数值型分类变量;其他选项的设置方法与图6-19所示的两个独立样本检验面板的设置相似。
在图6-23中,“最小值”、“最大值”两个输入框,分别用于指定类别变量要检验的最小取值和最大取值,不在此范围内的类别不参与检验。
(2)结果分析。在图6-22中,单击“确定”按钮运行,输出结果如图6-24所示。
由于两种检验统计量的渐进显著性取值都远小于0.01,故可以非常显著地否定零假设,接受备择假设,即认为不同年龄儿童的身高、体重不是全部来自具有相同分布的总体。