关于聚类分析、判别分析、主成分分析、因子分析等多元统计分析方法


主成分分析与因子分析的区别

 

1. 目的不同: 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。

2. 线性表示方向不同: 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。

3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。

5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。

6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。

7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。

1 、 聚类分析

基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;

          2. K-均值法要求分析人员事先知道样品分为多少类;

           3. 对变量的多元正态性,方差齐性等要求较高。

应用领域:细分市场,消费行为划分,设计抽样方案等

2、 判别分析

基本原理:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。

常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。

注意事项:1. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;

           2. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);

           3. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。

相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。

应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。

3、 主成分分析/ 因子分析

主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。

因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)

求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。

        (实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)

求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。

注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;

          2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或 是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;

          3.主成分分析不要求数据来源于正态分布;

          4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。

             5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。

4、 对应分析/最优尺度分析

基本原理:利用降维的思想以达到简化数据结构的目的,同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。

对应分析:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);

最优尺度分析:可同时分析多个变量间的关系,变量的类型可以是无序多分类,有序多分类或连续性变量,并 对多选题的分析提供了支持。

5、典型相关分析

基本原理:借用主成分分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关。

时间: 2024-08-04 10:33:04

关于聚类分析、判别分析、主成分分析、因子分析等多元统计分析方法的相关文章

网站推广应采用严谨的统计分析方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 经过一段时间的网站推广实践,慢慢总结出来一些规律,首先对于推广不能盲目乐观,不能靠臆想,不能一厢情愿,发一篇文章,就期望有成百上千的IP过来,往往是不现实的,世间的事都是有其内在的规律的. 看了很多admin5讲推广的文章,感觉大多都是经验主义派的,大家都是大谈个人的经验,但其实经验也是见人见智的,也有其的限制条件和特定环境,不同的站点适用的

主成分分析、因子分析、聚类分析的比较与应用

听说这是一篇论文 不过我没详细看. 一.概述 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关. 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.

《SAS 统计分析与应用从入门到精通(第二版)》一导读

前 言 SAS 统计分析与应用从入门到精通(第二版) SAS系统是世界领先的信息系统,是一款大型规模化的集成应用软件,具有完备的数据存取.管理.分析和显示的功能.SAS统计分析软件使用灵活方便.功能齐全,SAS语言编程能力强且简单易学,其数据处理和统计分析融为一体,已被广泛应用于医学.财经和社会科学等领域中. 本书内容充实.重点突出.实用性强,不仅介绍了常用的统计分析方法,也详细阐述了多元统计分析方法及其应用,例如方差分析.生存分析等,是覆盖多元统计分析方法较完整的一本参考书,适合于不同层次的人

《大数据分析原理与实践》一一3.3 相关分析

3.3 相关分析相关关系是一种非确定性的关系,例如,以X和Y分别表示一个人的身高和体重,或分别表示每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.在一些问题中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关关系.典型相关分析就是研究两组变量之间相关程度的一种多元统计分析方法.典型相关分析是研究两组变量之间相关关系的一种统计分析方法.为了研究两组变量X1,X2,-,Xp和Y

《大数据分析原理与实践》一一

3.3 相关分析 相关关系是一种非确定性的关系,例如,以X和Y分别表示一个人的身高和体重,或分别表示每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.在一些问题中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关关系.典型相关分析就是研究两组变量之间相关程度的一种多元统计分析方法.典型相关分析是研究两组变量之间相关关系的一种统计分析方法.为了研究两组变量X1,X2,-,Xp和

《大数据分析原理与实践》——3.3 相关分析

3.3 相关分析 相关关系是一种非确定性的关系,例如,以X和Y分别表示一个人的身高和体重,或分别表示每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.在一些问题中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关关系.典型相关分析就是研究两组变量之间相关程度的一种多元统计分析方法. 若本地数据文件中的字段与表中字段不匹配,需手动进行字段匹配,如图3-19所示. 最后提示导入成

聚类分析在用户分类中的应用

什么是聚类分析?聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题.网页的点击行为关联性问题以及用户分类问题等等.其中,用户分类是最常见的情况. 聚类分析的基本过程是怎样的? 选择聚类变量聚类分析找出 各类用户的重要特征聚类解释&命名 || &http://www.aliyun.com/zixun/a

《SPSS 统计分析从入门到精通(第2版)》一导读

前 言 SPSS 统计分析从入门到精通(第2版) 随着大数据概念的兴起,数据分析与挖掘受到越来越多行业的持续关注,如何做到大有所用.大有产出成为业内热议的话题.工欲善其事,必先利其器.在对数据及对应业务的理解方面,SPSS始终是数据分析从业者可靠的利器之一. IBM SPSS Statistics 20 也是与时俱进,持续提供优秀的操作体验和分析性能.其操作友好性.模型可靠性以及与其他平台的兼容性等,都有了非常大的提升.IBM SPSS Statistics 20还增加了许多新的特点,如扩展了线

统计学基本统计分析

相关性分析 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度.相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析.相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异. 回归分析 回归分析(Regression Analysis)是一种统计学上分析数据的方法,主要是希望探讨数据之间是否有一种特定关系.回归分析是建立因变量Y(或称依变量.原文为:respons