《数学建模:基于R》一一1.6 相关性检验

1.6 相关性检验

对于多元数据,讨论变量间是否具有相关关系是很重要的,这里介绍三种相关检验—Pearson相关检验、Spearman相关检验和Kendall相关检验,第一个检验是针对正态数据而言的,而后面两种检验属于秩检验.
1.6.1 Pearson相关检验
设二元总体(X,Y)的分布函数为F(x,y),X,Y的方差分别为var(X)和var(Y),总体协方差为cov(X,Y),总体的相关系数定义为ρXY=cov(X,Y)var(X)·var(Y)(1.72)设(X1,Y1),(X2,Y2),…,(Xn,Yn)为取自某个二元总体(X,Y)的独立样本,可以计算样本的相关系数rXY=S2XYS2X·S2Y(1.73)其中S2X和S2Y分别为样本X和样本Y的方差,S2XY为样本XY的协方差.在通常情况下,由样本计算出的rXY不为零,即使在随机变量X与Y独立的情况下.因此,当ρXY=0时,用rXY去度量X与Y的关联性没有实际意义.所以需要作假设检验H0:ρXY=0,  H1:ρXY≠0可以证明,当(X,Y)为二元正态总体,且当H0为真时,统计量t=rXYn-21-r2XY(1.74)服从自由度为n-2的t分布.
利用统计量t服从自由度为n-2的t分布的性质,可以对数据X和Y的相关性进行检验.由于相关系数rXY被称为Pearson(皮尔森)相关系数,因此,此检验方法也称为Pearson相关检验.
1.6.2 Spearman相关检验
设(X1,Y1),(X2,Y2),…,(Xn,Yn)为取自某个二元总体的独立样本,要检验变量X与变量Y是否相关.通常以“X与Y相互独立(不相关)”为原假设,“X与Y相关”为备择假设.
设r1,r2,…,rn为由X1,X2,…,Xn产生的秩统计量,R1,R2,…,Rn为由Y1,Y2,…,Yn产生的秩统计量,则有r=1n∑ni=1ri=n+12=R=1n∑ni=1Ri, 1n∑ni=1(ri-r)2=n2-112=1n∑ni=1(Ri-R)2称rs=1n∑ni=1riRi-n+122/n2-112为Spearman(斯皮尔曼)秩相关系数.
当X与Y相互独立时,(r1,r2,…,rn)与(R1,R2,…,Rn)是相互独立的,此时,E(rs)=0.当X与Y正相关时,rs倾向于取正值;当X与Y负相关时,rs倾向于取负值.这样就可以用rs的分布来检验X与Y是否独立.
可以证明:当n较大时,n-1rs的近似分布为N(0,1).由此可以构造拒绝域和计算相应的P值,当P值小于某一显著性水平α(如0.05)时,则拒绝原假设.
1.6.3 Kendall相关检验
这里从另一个观点来看相关问题.同样考虑原假设H0:变量X与Y不相关,以及三个备择假设H1:正或负相关  (或者)  正相关  (或者)  负相关引进协同的概念.如果乘积(Xj-Xi)(Yj-Yi)>0,则称对子(Xi,Yi)及(Xj,Yj)是协同的,或者说,它们有同样的倾向.反之,如果乘积(Xj-Xi)(Yj-Yi)<0,则称该对子是不协同的.令Ψ(Xi,Xj,Yi,Yj)=1,如果(Xj-Xi)(Yj-Yi)>0,
0,如果(Xj-Xi)(Yj-Yi)=0,
-1,如果(Xj-Xi)(Yj-Yi)<0.(1.75)定义Kendall(肯达尔)τ相关系数τ=∑1≤i0}-P{(Xj-Xi)(Yj-Yi)<0}的一个估计.容易看出,-1≤τ≤1.事实上,当所有对子都是协同的,则K=C2n,此时,τ=1.当所有对子都是不协同的,则K=-C2n,此时,τ=-1.
设r1,r2,…,rn为由X1,X2,…,Xn产生的秩统计量,R1,R2,…,Rn为由Y1,Y2,…,Yn产生的秩统计量,可以证明K=∑1≤i<j≤nsign(ri-rj)·sign(Ri-Rj)(1.78)结合式(1.78)和式(1.76),可以计算出估计值τ,这样就可以利用τ值作检验.当τ接近于0时,表示两变量独立;当τ大于某一值时,表示两变量相关(正数表示正相关,负数表示负相关).
1.6.4 cor.test函数
在R中,用cor.test()函数作相关检验,其使用格式为cor.test(x, y,
  alternative = c("two.sided", "less", "greater"),
  method = c("pearson", "kendall", "spearman"),
  exact = NULL, conf.level = 0.95, continuity = FALSE, ...)参数x和y分别为样本构成的数值向量, 且有相同的维数.
alternative为备择假设选项,取"two.sided"(默认值)表示双侧检验(相关),取"less"表示单侧检验(负相关),取"greater"表示单侧检验(正相关).
"method"为相关检验的选项,取"pearson"(默认值)表示Pearson检验,取"kendall"表示Kendall秩检验,取"spearman"表示Spearman秩检验.
exact为逻辑变量,表示是否精确计算P值.
conf.level为置信水平,默认值为0.95.
continuity为逻辑变量,表示在秩检验(Kendall检验或Spearman检验)中是否使用连续型修正.
另一种使用格式是公式形式,其使用格式为cor.test(formula, data, subset, na.action, ...)用于两总体样本的检验,参数formula为形如~u +v的公式,其中u和v为数据框的变量.
data为矩阵或数据框.subset为可选向量,表示使用样本的子集.
na.action为函数,表示样本中出现缺失值(NA)的处理方法,默认值为函数getOption("na.action").
...为附加参数.
例1.30 对于20个随机选取的黄麻个体植株,记录青植株重量Y与它们的干植株重量X.设二元总体(X,Y)服从二维正态分布,其观测数据如表1.15所示.试分析青植株重量与干植株重量是否具有相关性.
表1.15 青植株与干植株的重量(单位:千克)XYXY1689712638923701125468256593169112710162812321920315103037511334621227352132130514584151422916273321717185185370319628722065740
解 这里假设数据服从二元正态分布,所以使用Pearson相关检验.
输入数据,调用cor.test()函数完成相关检验(程序名:exam0130.R).X <- c( 68,```javascript
63, 70, 6, 65, 9, 10, 12, 20, 30,
    33, 27, 21, 5, 14, 27, 17, 53, 62, 65)
Y <- c(971, 892, 1125, 82, 931, 112, 162, 321, 315, 375,
    462, 352, 305, 84, 229, 332, 185, 703, 872, 740)
cor.test(X, Y)

    Pearson's product-moment correlation
data: X and Y
t = 20.7387, df = 18, p-value = 5.151e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9483279 0.9921092
sample estimates:
   cor

0.9797091 在输出结果中,t为t统计量,df为自由度,p-value为P值.还有相关系数的置信区间和相关系数的估计值.样本相关系数为0.9797,P值为5.151×10-14,说明两变量高度相关.
例1.31 一项有六个人参加表演的竞赛,有两人进行评定,评定结果如表1.16所示,试检验这两个评定员对等级评定有无相关关系.
表1.16 两位评判者的评定成绩甲的打分123456乙的打分654321
解 由于评定成绩是打分的等级,所以无法用Pearson相关检验.这里选择Spearman秩相关检验方法来完成检验工作.输入数据,作检验(程序名:exam0131.```javascript
R).> x <- 1:6; y <- 6:1
> cor.test(x, y, method = "spearman")

    Spearman's rank correlation rho
data:  x and y
S = 70, p-value = 0.002778
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho

-1 P值(= 0.002778)<0.05,因此,拒绝原假设,认为变量X与Y相关.事实上,由于计算出的rs=-1,表示这两个量完全负相关,即两人的结论有关系,但结论完全相反.
例1.32 某幼儿园对9对双胞胎的智力进行检验,并按百分制打分.资料如表1.17所示,试用Kendall相关检验方法检验双胞胎的智力是否相关.
表1.17 9对双胞胎的得分情况
先出生的儿童867768917071858763
后出生的儿童887664966580817260
解 由于数据不一定满足正态分布的条件,所以指定使用Kendall秩相关检验方法(程序名:exam0132.R).X <- c(86, 77, 68, 91, 70, 71, 85, 87, 63)

Y <- c(88, 76, 64, 96, 65, 80, 81, 72, 60)
cor.test(X, Y, method = "kendall")

    Kendall's rank correlation tau
data:  X and Y
T = 31, p-value = 0.005886
alternative hypothesis: true tau is not equal to 0
sample estimates:
   tau

0.7222222 P值(=0.005886)<0.05,拒绝原假设,认为双胞胎的智力是相关的,Kendall相关系数为0.7222,表明是正相关的.

时间: 2024-10-26 21:55:44

《数学建模:基于R》一一1.6 相关性检验的相关文章

《数学建模:基于R》一一1.7 数学建模案例分析——食品质量安全抽检数据分析

1.7 数学建模案例分析--食品质量安全抽检数据分析 1.7.1 问题的提出 该题选自2013年"深圳杯"数学建模夏令营A题. "民以食为天",食品安全关系到千家万户的生活与健康.随着人们对生活质量的追求和安全意识的提高,食品安全已成为社会关注的热点,也是政府民生工程的一个主题.城市食品的来源越来越广泛,人们消费加工好的食品的比例也越来越高,因此除食材的生产收获外,食品的运输.加工.包装.贮存.销售以及餐饮等每一个环节皆可能影响食品的质量与安全.另一方面,食品质

《数学建模:基于R》一一第2章 多元分析模型

第2章 多元分析模型 本章介绍数学建模常用的多元分析模型,包括线性回归.方差分析和判别分析,以及如何使用R中的函数求解这三种多元分析模型.

《数学建模:基于R》——1.6 相关性检验

1.6 相关性检验 对于多元数据,讨论变量间是否具有相关关系是很重要的,这里介绍三种相关检验-Pearson相关检验.Spearman相关检验和Kendall相关检验,第一个检验是针对正态数据而言的,而后面两种检验属于秩检验. 1.6.1 Pearson相关检验 1.6.2 Spearman相关检验 1.6.3 Kendall相关检验 1.6.4 cor.test函数

《数学建模:基于R》——导读

前 言 R是一款免费软件,主要用于统计分析.绘图和数据挖掘等.但随着R的广泛使用,R软件的求解能力已不仅仅局限于统计计算的内容,特别是R扩展程序包的下载和安装,大大地增强了R软件的计算与求解能力,例如,能够完成优化.图论与网络.数值分析等方面的计算. 本书之所以命名为<数学建模:基于R>,是因为除介绍数学建模常用的统计方法外,还着重介绍了如何从CRAN(Comprehensive R Archive Network)社区下载相关的扩展程序包,如何使用这些程序包中的函数求解线性规划.最优化.图论

《数学建模:基于R》——2.4 数学建模案例分析——气象观察站的优化

2.4 数学建模案例分析--气象观察站的优化 2.4.1 问题的提出 某地区内有12个气象观测站,为了节省开支,计划减少气象观测站的数目.已知该地区12个气象观测站的位置,以及10年来各站测得的年降水量(见表2.14,为便于计算,将表中的数据保存在文本文件rainfall.data中).减少哪些观测站可以使所得到的降水量的信息足够大?观察站分布如图2.7所示. 2.4.2 假设 2.4.3 分析 题目要求减少一些观测站,但获得的降水量的信息足够大,如何做到这一点呢?首先要考虑降水量的信息问题.对

《数学建模:基于R》——1.7 数学建模案例分析——食品质量安全抽检数据分析

1.7 数学建模案例分析--食品质量安全抽检数据分析 1.7.1 问题的提出 1.7.2 问题1:三年各主要食品领域安全情况的变化趋势 1.7.3 问题2:找出某些规律性的东西 1.7.4 问题3:如何改进食品的抽检办法 1.7.5 结论 (1) 深圳市2010年至2012年三年来的食品安全状况逐年变好; (2) 食品的餐饮.储存等各环节与食品质量有关; (3) 食品产地与食品质量有关,而且是负相关; (4) 食品的抽检地点与食品质量有关; (5) 饮品和水产类食品的质量与季节无关,果蔬.粮食.

数学建模十大算法

作者:July  二零一一年一月二十九日   一.蒙特卡罗算法1946年,美国拉斯阿莫斯国家实验室的三位科学家John von Neumann,Stan Ulam 和 Nick Metropolis 共同发明了,蒙特卡罗方法. 此算法被评为20世纪最伟大的十大算法之一,详情,请参见我的博文:http://blog.csdn.net/v_JULY_v/archive/2011/01/10/6127953.aspx   蒙特卡罗方法(Monte Carlo method),又称随机抽样或统计模拟方法

信道估计-有一个数学建模问题用Matlab绘图后不是期望的图,是我选择的点数太多还是……

问题描述 有一个数学建模问题用Matlab绘图后不是期望的图,是我选择的点数太多还是-- n=82*2201; a=zeros(1,n); x=[real.txt]; X=x(1:2200:end); a(1:2201:n)=X; l=length(a);1*180482 x=x(:);9*2000->1*180000 x=x'; x=[x,zeros(1,482)];1*180482 x=x-a; x(x==0)=[];1*179999 x=x';179999*1 xk-用excel抽样的 Y

数学建模实录(4)

作者:孤剑     这几天一直担心数学建模的问题,虽然自己过生日的时候,我认为的几个朋友没有打电话给我,很伤心,但是生活不容许你有太多的伤心,还是得学习.     眼看马上就要到了数学建模考试的时间了,自己还有很多的东西需要学习,今天看了看微分方程的求解,不时很明白. [t,x]=solver('function',ts,x0,options) 说明: 1.t为由solver返回的函数的自变量: 2.x为由solver返回的函数值: 3.solver为微分方程的解决函数,ode23,ode45,