2.3 推断统计
推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论。基本特征是其依据的条件中包含带随机性的观测数据。以随机现象为研究对象的概率论是统计推断的理论基础。它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力;假设检验,即利用样本信息判断对总体的假设是否成立。例如,若感兴趣的问题是“平均视力是否超过4.8”,就需要通过样本检验此命题是否成立。
2.3.1 参数估计
实际问题中,所研究的总体分布类型往往是已知的,但是要依赖于一个或者几个未知的参数。这时,求总体分布的问题就归结成了求一个或者几个未知参数的问题,这就是所谓的参数估计。
例如,一款电灯的使用寿命X是一个随机变量,我们由实际的经验知道X服从正态分布N(μ,σ2)。要想了解这款电灯的实际性能,我们就需要估计出μ和σ2值。又如,一段时间内某个商场的客流量可以用泊松分布来刻画,那么若想知道一定的时间间隔内经过的人数为k的概率,就要估计参数λ的值。
因而,在总体分布已知的情况下进行参数估计是推断统计的重要内容。有些实际问题中人们不关心总体分布的形式,而只是想知道均值、方差等某些数字特征,对这些数字特征的估计问题,也是参数估计的一部分内容。
参数估计主要有点估计和区间估计两类,我们分别讨论。
1.点估计
设参数θ是总体X的未知参数,是可以用参数X1,X2,…,Xn构成的统计量来估计θ,则称为θ的估计量。对于具体的样本X1,X2,…,Xn,估计量的值称为θ的估计值。在没有必要强调估计量或估计值时,常把两者统称为估计。点估计的目的就是寻求未知参数的估计量与估计值。
(1)点估计的两种方法
点估计主要有矩估计和极大似然估计两种。
1)先介绍矩估计。众所周知,随机变量的矩是非常简单的描述随机变量统计规律的方法,而且,随机变量的一些参数往往本身就是随机变量的矩或者某些矩的函数。于是,很自然的想法就是如果可以把未知参数θ用总体矩μk=E(Xk)(k=1,2,…,m)的函数表示为θ=h(μ1,μ2,…,μn),那么这种用样本矩的函数作为参数θ估计的方法,就是矩估计法。
矩估计法主要有两种:以样本的各阶原点矩作为总体的各阶原点矩得到估计量;以样本的各阶原点矩的连续函数作为总体的各阶原点矩的连续函数得到估计量。
下面举一个例子展示矩估计的实际应用,对某种成年植物取出多个样本,观测在一定温度内该植物花朵的直径,得出了样本的值为10、15、15、14、16。把植物花朵的直径看作随机变量,则对样本的一阶矩估计用于计算X的数学期望,即E?(X)=(10+15+15+14+16)= 14,对样本的二阶矩用于计算该植物花朵直径的方差,即=((10-14)2+(15-14)2 +(15-14)2+(14-14)2+(16-14)2)=4.4。
2)下面讨论极大似然估计。设总体X具有分布率p(x; θ)(或概率密度f?(x; θ)),其中θ为未知参数向量,其取值在Θ之中,设X1,X2,…,Xn为来自X的样本,则(X1,X2,…,Xn)的联合分布率(或联合概率密度)
(或)
称为样本的似然函数。
对样本的任何观测值(X1,X2,…,Xn),若
则称为参数θ的最大似然估计值,其中为参数θ的最大似然估计量。
若p(x; θ)或f(x; θ)关于θ可微,则参数θ的最大似然估计可以通过方程
得到。
又因为lnx为x的单调函数,因此参数θ的最大似然估计亦可通过方程
得到,后一方程的求解往往较前者方便得多。
最大似然估计法非常直观,通俗地说就是做出的估计要有利于实例的出现,举个简单的例子:
发现一组数据总体符合正态分布N(μ, σ2),这组数据来自于一种树木的高度。数据集共有1000个样本,每个样本对应一棵树的高度。现在需要我们根据这个数据集来估计参数μ和σ2。
这个实例是很有意义的,现实生活中有大量的数据都符合正态分布,我们可以很容易地将这个实例所得的结论迁移到这些场合。
首先构造似然函数
再对L取对数,并且分别对μ、σ2求偏导数,并使其都为0,即
于是可得μ的预测值为
σ2的预测值为
这正是我们十分熟悉的正态分布参数估计公式,只需要直接将样本数据代入公式即可求出μ和σ。
(2)估计量的评价标准
参数的点估计要求相当宽松,对同一参数,可用不同的方法来估计,因而得到不同的估计量,故有必要建立一些评价估计量好坏的标准。
估计量好坏的评价标准一般有三条:无偏性、有效性、相合性(一致性)。
1)若估计量的数学期望E()存在,且对于任意θ?∈?Θ,满足E()=θ,则称为参数θ的无偏估计量。
2)设与都是参数θ的无偏估计量,若对于任意θ?∈?Θ,满足D()<D(),则称较有效,其中D(θ)是θ的方差。
3)若是参数θ的估计量,若对于任意θ?∈?Θ,当n→∞时,(X1,X2,
…,Xn)以概率收敛于θ,即??ε>0,成立,则称为参数θ的相合估计量。
2.区间估计
区间估计是从点估计值和抽样标准误差(standard error)出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。置信度是指总体参数值落在样本统计值某一区间内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间的误差范围。置信区间越大,置信水平越高。划定置信区间的两个数值分别称为置信下限和置信上限。
区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上,是依据该样本统计量时分布规律样本分布的标准误差。也就是说,只有知道了样本统计量的分布规律和样本统计量分布的标准误差,才能计算总体参数可能落入的区间长度,才能对区间估计的概率进行解释,可见标准误差及样本分布对于总体参数的区间估计是十分重要的。
样本分布可提供概率解释,而标准误差的大小决定区间估计的长度,标准误差越小置信区间的长度越短,而估计成功的概率仍可保持较高水平。一般情况下,加大样本容量可使标准误差变小。
如上所述,区间估计存在成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时,总希望估计值的范围小一点,成功的概率大一些。但在样本容量一定的情况下,二者不可兼得。如果使估计正确的概率加大些,势必要将置信区间加长,若使正确估计的概率为1.00,即完全估计正确,则置信区间就会很长,也就等于没做估计了。这就像在百分制的测验中你估计一个人的得分可能为0~100分一样。反之,如果要使估计的区间变小,那就势必会使正确估计的概率降低。
统计分析中一般规定:正确估计的概率即置信水平为0.95或0.99,那么显著性水平则为0.05或0.01,这是依据“0.05或0.01属于小概率事件,而小概率事件在一次抽样中是不可能出现的”原理规定的。
单个正态总体参数的区间估计有以下几种情况:
1)σ2已知,求μ的置信区间。
2)σ2未知,求μ的置信区间。
两个正态总体参数的区间估计有以下几种情况:
1)已知,求μ1-μ2的置信区间。
2)求的置信区间。
以上的区间估计问题都有公式可以直接使用。
下面以“单个正态总体σ2已知,求μ的置信区间”的问题为例,给出实际的应用过程。
在这种情况下,μ的置信区间为。
为了说明上述区间估计,来看下面的例子。
在正常情况下,某个机床加工的零件的孔径X(单位:cm)服从N(μ,σ2)分布。资料显示,σ=0.048,从加工的零件中,测得孔径平均值为1.416,求μ的置信区间(置信度为0.95)。
由于X=1.416,σ=0.048,n=10,α=0.05,查数学表可知,所以置信区间为,计算得到(1.386,1.446),说明了该零件的孔径落在此区间的概率为95%。
2.3.2 假设检验
假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体分为三个步骤。第一步,根据问题的需要对所研究的总体做某种假设,记作H0;第二步,选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;第三步,由实测的样本计算出统计量的值,并根据预先给定的显著性水平进行检验,做出拒绝或接受假设H0的判断。t检验和u检验是两种最常用的假设检验方法,其适用条件见表2-4。
本章主要阐述t检验,其中t检验分为三种形式:单样本t检验、两个独立样本均数t检验和配对样本均数t检验(非独立两样本均数t检验)。下面分别给出三种检验形式的介绍和实例。
1.单样本t检验
单样本t检验应用的前提是只有一个总体,并且总体呈正态分布;其适用场合为检验总体均值是否与给定的值存在显著差异(不相等)。
在H0?∶?μ=μ0的假定下,可以认为样本是从已知总体中抽取的,根据t分布的原理,单样本t检验的公式为:,其中S为样本方差。需要计算t值,然后与t(α/2),(n-1) (可通过查表得到)比较大小。如果t值较小,拒绝原本假设。
以一个具体的实例来说明。通过大规模调查已知某地新生儿出生体重3.30 kg,从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42 kg,标准差为0.40 kg,问该地难产儿出生体重是否与一般新生儿体重不同?
经过分析,已知总体均数μ0=3.30 kg,尽管知道研究样本的标准差S=0.40 kg,但总体标准差σ未知,而且n=35为小样本,故选用单样本t检验。
检验的步骤如下:
1)建立检验假设,确定检验水准。
H0?∶?μ=μ0,该地难产儿与一般新生儿平均出生体重相同;
H1?∶?μ≠μ0,该地难产儿与一般新生儿平均出生体重不同;
检验水准α=0.05,双侧检验。
2)计算检验统计量。
在μ=μ0成立的前提条件下,计算统计量为:
3)确定概率P的值,做出推断结论。
通过查表得知t0.05/2,34=2.032,因为t<t0.05/2,34,故P>0.05=α,则根据检验水准α=0.05,不拒绝H0,该差别无统计学意义,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。
2.两个独立样本均数t检验
两个独立样本均数t检验的前提是两个样本所代表的总体均服从正态分布,且两个总体方差相同,而两组样本数量可以不同。其目的是考察两个总体的均值是否存在显著差异。
H0?∶?μ1-μ2=0,则不存在差异。t检验的公式为
其中,,而。
检验过程中,需要具体计算t值,和t(α/2),(n1+n2-1)比较大小。如果计算的t值小,则拒绝原本假设。
这种方法可用于判断两个样本是否来自不同总体,即是否不同:该因素作用在另一组后,判断因素是否起作用(使其不再来自原来总体)。
以一个具体的实例来说明上述过程。
25名糖尿病患者随机分成两组,甲组单纯用药物治疗,乙组采用药物治疗合并饮食疗法,两个月后测空腹血糖,见
表2-5,问两种疗法治疗后患者血糖值是否相同?
甲组:n1=12,
乙组:n2=13,
检验步骤如下:
1)建立检验假设,确定检验水准。
H0?:?μ1=μ2,两种疗法治疗后患者血糖值的总体均数相同;
H1?:?μ1≠μ2,两种疗法治疗后患者血糖值的总体均数不同;
α=0.05。
2)计算检验统计量。
由原始数据算得
代入公式,得
按公式计算,得
3)确定P值,做出推断结论。
查表可知:t0.05,(23)=2.069
由于t>t0.05/2,(23),P<0.05,按α=0.05的水准拒绝H0,接受H1,有统计学意义。故可认为该地两种疗法治疗糖尿病患者两个月后测得的空腹血糖值的均数不同。
3.配对样本均数t检验
配对样本均数t检验应用的前提与单样本t检验类似,只是抽样不是独立的,而是两两配对相互关联的。
配对样本需要满足两个条件:两组样本数量相同,并且两组样本的观测值是一一对应的。H0表示两总体均值不存在差异,即μ-μ0=0。
在进行配对t检验时,首先应计算各对数据间的差值d,将d作为变量计算均数,可以将该检验理解为差值样本均数与已知总体均数μd(μd=0)比较的单样本t检验,公式为
具体计算t值,和t(α/2),(n-1)比较大小。如果t值较小,拒绝原本假设。
下面通过一个具体的实例来说明。
有12名接种卡介苗的儿童。8周后用两批不同的结核菌素,一批是标准结核菌素,另一批是新制结核菌素,分别注射在儿童的前臂,两种结核菌素的皮肤侵润反应平均直径见
检验步骤如下:
1)建立检验假设,确定检验水准。
H0?:?μd=0,两种结核菌素的皮肤侵润反应总体平均直径差异为0;
H1?:?μd≠0,两种结核菌素的皮肤侵润反应总体平均直径差异不为0;
α=0.05。
2)计算检验统计量。
先计算差值d及d2,如表2-6第4、5列所示,本例 ∑d=39,∑d2=195
计算差值的标准差
计算差值均值的标准差
按公式计算,得
3)确定P值,做出推断结论。
通过查表可知:t0.05/2,(11)=2.201,因为t>t0.05/2,(11),P<0.05,按照α=0.05的水准,拒绝H0,接受H1,差异有统计学意义,可认为两种方法皮肤侵润反应结果不同。
2.3.3 假设检验的阿里云实现
本节我们通过例子展示利用阿里云平台实现假设检验功能。
1.单样本t检验
原始数据见表2-7,对单样本t检验我们只使用Data1列的数据。
用阿里云进行单样本t检验。首先进入阿里云大数据开发平台中的机器学习平台,选择相应的工作组后进入算法平台。右击“实验”标签,新建一个空白实验,在打开的“新建实
验”对话框的“名称”文本框中输入对应的名称,如图2-1所示。
在“组件”选项卡中选择相应的组件,拖动到右侧实验中,如图2-2所示。
先拖动数据源,再拖动组件,最终节点设计如图2-3所示。
单样本t检验设置如图2-4和图2-5所示。
单击“运行”,阿里云平台开始运行各实验节点。完成后,运行成功节点会出现绿色对钩标志。运行失败节点会显示红叉标志。在运行成功节点上右击,选择“查看分析报告”,如图2-6所示,能够查看运行结果数据。
单样本t检验结果如图2-7所示。
2.两个独立样本均数t检验
原始数据见表2-7。
用阿里云进行两个独立样本均数t检验。参考单样本t检验实现的具体流程,在左侧实验中右击,选择“新建空白实验”命令,接着设定对应的实验名称,并在组件中选择相应的组件“双样本T检验”,将其拖动到右侧实验中。
先拖动数据源,再拖动组件,最终节点设计如图2-8所示。
双样本t检验实验的设置为:“样本1所在列”设为“fl”,“样本2所在列”设为“f2”。参数设置为:“T检验类型”设为“独立性T检验”,对立假设类型为可选项,此处设为“two.sided”,“置信度”设为“0.8”,“假设均值大小”设为“0”。“两总体方差是否相等”设为“false”。运行后,两个独立样本均数t检验的结果如图2-9所示。
图2-9 两个独立样本均数t检验的结果
3.配对样本均数t检验
原始数据见表2-7。
用阿里云进行配对样本均数t检验。首先进入阿里云大数据开发平台机器学习平台,选择相应的工作组后进入算法平台。右击“实验”标签,新建一个空白实验,输入对应的实验名称“推断统计”,在“组件”选项卡中选择相应的组件,拖动到右侧实验中。
先拖动数据源,再拖动组件,最终节点设计如图2-10所示。
两个配对样本均数t检验的参数设置为:“样本1所在列”设为“fl”,“样本2所在列”设为“f2”。“T检验类型”设为“配对性T检验”,“对立假设类型”设为“two.sided”,“置信度”设为“0.8”,“假设均值大小”设为“0”。配对样本均数t检验的结果如图2-11所示。
图2-11 配对样本均数t检验的结果
接下来的几章我们将介绍多个分析模型,包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型。
需要注意的是,下面几章仅在大数据分析的数学模型和基本方法层面加以讨论,并不涉及其在大数据上的具体实现算法,并给出基于阿里云平台对其进行分析的方法,具体实现算法将在后面的章节中详细讨论。
下面几章实现大数据分析的阿里云工具构建于阿里云MaxCompute、GPU等计算集群之上,汇集了分布式机器学习算法、文本处理算法、图分析算法等,可高效地完成海量、亿级维度数据的复杂计算,并且提供了一套极易操作的可视化编辑页面,大大降低了大数据分析的建模门槛,提高了建模效率,最终帮用户快速得到需要的大数据模型而无须了解其具体实现算法。
需要说明的是,大数据分析模型内容非常丰富,其范畴涵盖了统计学、数据挖掘、图论以及诸多相关领域,很难在一本书中对其进行全面阐述,本书采取广度优先的方式进行介绍,尽可能多地覆盖分析模型,供读者参考。由于篇幅所限,对于模型的性质缺少深度的介绍,对于具体模型的深度讲解可以参考相应的教材和专著,例如《复杂数据统计方法》《多元统计分析导论》和《模式分类》等。
小结
本章介绍了大数据分析模型的基本概念。2.1节让读者对于大数据分析模型有了更加清晰的认识,介绍了大数据分析模型的建立方法,以及影响大数据分析效果的众多因素。只有针对实际问题,把握住影响实际问题的关键因素,才能得到让人满意的模型。2.2节介绍了基本统计量,包括全表统计量和皮尔森相关系数。在全表统计量中,根据反映出的数据特征类型可以将基本统计量分为两类:反映数据集中趋势的和反映数据波动大小的。能够反映数据集中趋势的度量包括均值、中位数和众数;能够反映数据散布情况的数据波动大小度量包括极差和方差。皮尔森相关系数是关联关系分析问题中常用的而且很重要的统计量。2.3节讲述了推断统计的基本知识,包括参数估计和假设检验。在参数估计部分,首先介绍了点估计,主要有矩估计和极大似然估计两种;接着探讨了估计量的评价标准,包括3条:无偏性、有效性、相合性(一致性)。对于区间估计,本章给出了单个正态总体参数的区间估计和两个正态总体参数的区间估计。在假设检验部分,给出了假设检验的定义和操作步骤,并给出了t检验和u检验的区别。最后,针对t检验的三种形式(单样本t检验、两个独立样本均数t检验和配对样本均数t检验)做了详细的介绍。
习题
- 某厂生产日光灯管,其抽取11只灯管进行检测,灯管的使用寿命如下(单位:月):7,8,9,9,9,11,13,14,16,17,19。
(1)写出其均值、众数、中位数。
(2)求出其极差以及方差。
- 某医院为调查年龄与肥胖的关系,随机选取16名患者记录(见表2-8)。
表2-8 题2用表
年龄 23 23 27 27 39 41 47 49
体脂率 ?9.5 26.5 ?7.8 11.8 21.4 15.9 17.4 17.2
年龄 49 52 54 56 58 60 61 63
体脂率 21.3 24.6 18.8 25.4 23.2 27.4 30.1 28.2
(1)计算年龄与体脂率的均值、中位数与标准差。
(2)计算皮尔森相关系数,这两个变量是正相关还是负相关?
- 某名男大学生立定跳远,其5次成绩结果如下(单位:m):2.781,2.836,2.807,2.763,2.858,已知测量结果服从N(μ,σ2),求参数μ和σ2的矩估计。
- 设总体X服从指数分布
试利用样本x1,x2,…,xn,求参数θ的最大似然估计。
- 罐中有N个硬币,其中有θ个是普通的硬币(掷出正面与反面的概率各为0.5),其余N-θ个硬币两面都是正面,从罐中随机取出一个硬币,把它连掷两次,记下结果,但不去查看它属于哪一种硬币,又把硬币放回罐中,如果重复n次,若掷出0次、1次、2次正面朝下的次数分别为n0、n1、n2,请分别用矩估计法和极大似然估计法估计参数θ。
- 设总体X服从区间[1,θ]上的均匀分布,θ>1未知,X1,X2,…,Xn是取自X的样本:
(1)求θ的矩估计和最大似然估计量。
(2)上述两个估计量是否为无偏估计量?若不是,请修正为无偏估计量;
(3)(2)中的两个无偏估计量哪一个更有效?
- 从一批加工的零件中抽取16个,测量其长度为2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.10,2.15,2.14,2.10,2.13,2.11,2.14,2.11,2.12(cm)。设此零件的长度为正态分布,已知σ?=0.01cm,求总体期望μ的置信区间(置信度为0.90)。若σ未知呢?
- 对某农作物两个品种计算了8个地区的单位面积产量如下:
品种A 86,87,56,93,84,93,75,79
品种B 80,79,58,91,77,82,74,66
假定两个品种的单位面积产量分别服从正态分布,且方差相等,试求平均单位面积产量之差置信度为0.95的置信区间。
- 两台机床加工同一种零件,分别抽取6个和9个零件,测零件长度计算得=0.245,=0.375。假定各台机床零件长度服从正态分布,试求两个总体方差比的置信区间(置信度为0.95)。
- 某机器制造出的肥皂厚度为5 cm,想要了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3 cm,标准差为0.3 cm,试以0.05的显著性水平检验机器性能良好的假设。
- 已知某种元件的寿命服从正态分布,要求该元件的平均寿命不低于1000小时,现从这批元件中随机抽取25件,测得平均寿命为980小时,标准差为65小时,试在显著性水平0.05下,确定这批元件是否合格。
- 下面给出了两个文学家马克·吐温(Mark Twain)的8篇小品文以及斯诺德格拉斯(Snodgrass)的10篇小品文中由3个字母组成的词的比例。
马克·吐温:0.225,0.262,0.217,0.240,0.230,0.229,0.235,0.217
斯诺德格拉斯:0.209,0.205,0.196,0.210,0.202,0.207,0.224,0.223,0.220,0.201
设两组数据分别服从正态分布,且两总体方差相等,两样本相互独立,问两个作家所写的小品文中包含由3个字母组成的词的比例是否有显著性的差异(0.05)?