主成分分析、因子分析、聚类分析的比较与应用

  听说这是一篇论文 不过我没详细看。

一、概述

  主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。  因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。

  聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。  三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。

二、基本思想的异同点

  (一) 共同点  主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。  (二) 不同之处  主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。  因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。         聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。  从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。

三、数据标准化

  主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据。  而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。  聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法。

四、应用分析

  (一) 主成分分析  1、优点  首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。  2、缺点  当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。  (二) 因子分析  1、优点  第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。
  2、缺点  在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。  (三) 聚类分析  1、优点  聚类分析模型的优点就是直观,结论形式简明。  2、缺点  在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
时间: 2024-09-20 05:48:29

主成分分析、因子分析、聚类分析的比较与应用的相关文章

关于聚类分析、判别分析、主成分分析、因子分析等多元统计分析方法

主成分分析与因子分析的区别   1. 目的不同: 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数:主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分). 2. 线性表示方向不同: 因子分析是把变量表示成各公因子的线性组合:而主成分分析中则是把主成分表示成各变量的线性组合. 3. 假设条件不同:主成分分析中不需要有假设:因子

解读数据分析是神马?

1.什么是数据分析/挖掘 数据分析/挖掘的目的是为业务发展答疑解惑.他描述了"过去发生了什么"."现在正在发生什么"和"未来可能发生什么".根据分析的级别,分为常规报表.即席查询.多维分析(又称为钻取或者OLAP).报警.统计分析.预报(或者时间序列预测).预测性(predictive)模型和优化 常规报表:常规报表广为人知,它们通常按照一定的周期产生,对过去一段时间.一定范围内所发生的事实进行记录.它们对了解业务现状非常有用,但是却无法据此进行

走进大数据之拓扑数据分析方法

拓扑数据分析(TDA),顾名思义,就是把拓扑学与数据分析结合的一种分析方法,用于深入研究大数据中潜藏的有价值的关系. 相比于主成分分析.聚类分析这些常用的方法,TDA不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类.这种方法也因此曾在基因与癌症研究领域大显身手. 1.什么是拓扑数据分析 拓扑学研究的是一些特殊的几何性质,这些性质在图形连续改变形状后还能继续保持不变,称为"拓扑性质".而在复杂的高维数据内部也存在着类似的结构性质,我们可以形象地称之为数

萨纳斯光伏大数据体系之光伏设备运行分析

导读:随着光伏电站规模的不断扩大,光伏设备的数量也在增加.而光伏电站一般地处偏远地带,运维人员较少,为保证光伏电站的安全.高效.低成本运行,就势必要对电站设备运行水平进行全面准确分析,精准运维. 光伏电站的设备组成: 光伏电站设备是光伏电站的基本支撑,一般由气象站.太阳能电池阵列.汇流箱.直流柜.逆变器.箱变.主变.数据采集器.支路电表.关口表等设备构成,其系统结构如图1.随着光伏电站规模的不断扩大,光伏设备的数量也在增加.而光伏电站一般地处偏远地带,运维人员较少,为保证光伏电站的安全.高效.低

基于共词分析的智慧城市研究现状与展望

基于共词分析的智慧城市研究现状与展望 王朝晖  郑新奇 本研究以CNKI为数据源,提取和归纳高频关键词,采用共词分析法和因子分析聚类分析与多维尺度分析等相结合的方法,探讨和分析目前国内智慧城市的研究现状,并展望其发展趋势. 基于共词分析的智慧城市研究现状与展望

聚类分析在用户分类中的应用

什么是聚类分析?聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题.网页的点击行为关联性问题以及用户分类问题等等.其中,用户分类是最常见的情况. 聚类分析的基本过程是怎样的? 选择聚类变量聚类分析找出 各类用户的重要特征聚类解释&命名 || &http://www.aliyun.com/zixun/a

SPSS聚类分析——一个案例演示聚类分析全过程

SPSS聚类分析--一个案例演示聚类分析全过程 摘要: 案例数据源: 有20种12盎司啤酒成分和价格的数据,变量包括啤酒名称.热量.钠含量.酒精含量.价格.数据来自<SPSS for Windows 统计分析> 案例数据源: 有20种12盎司啤酒成分和价格的数据,变量包括啤酒名称.热量.钠含量.酒精含量.价格.数据来自<SPSS for Windows 统计分析>data11-03.点击下载 [一]问题一:选择那些变量进行聚类?--采用"R型聚类" 1.现在我们

《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分

原文:<BI那点儿事>Microsoft 聚类分析算法--三国人物身份划分 什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分.聚类分析的基本过程是怎样的?  选择聚类变量 在分析三国人物身份的时候,我们会根据一定的假设,尽可能选取对角色身份有影响的变量,这些变量一般包含与身份密切相关的

聚类分析之R语言篇

聚类分析(cluster analysis)是把研究对象(样本或变量)分组成为由类似的对象组成多个类的一种统计方法.聚类结果一般在4-6类,不易太多,或太少.聚类分析目的在于将相似的事物归类,同一类中的个体有较大的相似性,不同类的个体差异性很大.两个个体间(或变量间)的对应程度或联系紧密程度的度量可以用两种方式来测量:1.采用描述个体对(变量对)之间的接近程度的指标,例如"距离","距离"越小的个体(变量)越具有相似性:2.采用表示相似程度的指标,例如"相