主成分分析法和聚类分析法的区别

2024-05-19 10:40

1. 主成分分析法和聚类分析法的区别

主成分分析法在过程中产生新变量,而聚类分析法在过程中没有产生新变量。
主成分分析法:一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
聚类分析法:理想的多变量统计技术,主要有分层聚类法和迭代聚类法。是研究分类的一种多元统计方法。

主成分分析法和聚类分析法的区别

2. 聚类分析在哪些方面运用

1、聚类分析
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
2、因子分析
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。
3、相关分析
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
4、对应分析
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
5、回归分析
研究一个随机变量Y对另一个(X)或一组(X1,X2,„,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

3. 主成分分析,聚类分析,因子分析的基本思想以及他们各自的优缺点。

主成分分析与因子分析的区别

 
1. 目的不同: 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。

2. 线性表示方向不同: 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。

3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。

5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。

6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。

7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。
 

1 、聚类分析

基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;

          2. K-均值法要求分析人员事先知道样品分为多少类;

           3. 对变量的多元正态性,方差齐性等要求较高。

应用领域:细分市场,消费行为划分,设计抽样方案等

2、判别分析

基本原理:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。

常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。

注意事项:1. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;

           2. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);

           3. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。

相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。

应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。

3、 主成分分析/ 因子分析

主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。

因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)

求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。

        (实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)

求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。

注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;

          2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;

          3.主成分分析不要求数据来源于正态分布;

          4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。

             5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。

4、对应分析/最优尺度分析

基本原理:利用降维的思想以达到简化数据结构的目的,同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。

对应分析:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);

最优尺度分析:可同时分析多个变量间的关系,变量的类型可以是无序多分类,有序多分类或连续性变量,并 对多选题的分析提供了支持。

5、典型相关分析

基本原理:借用主成分分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关。

主成分分析,聚类分析,因子分析的基本思想以及他们各自的优缺点。

4. 聚类分析、判别分析、主成分分析、因子分析

来自: 带呀带尾呀 (数据小生、数字营销、新媒体)
  
 主成分分析与因子分析的区别
  
 1. 目的不同: 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。
  
 2. 线性表示方向不同: 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。
  
 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。
  
 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。
  
 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。
  
 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。
  
 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。
  
 1 、聚类分析
  
 基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
  
 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
  
 注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;
  
 2. K-均值法要求分析人员事先知道样品分为多少类;
  
 3. 对变量的多元正态性,方差齐性等要求较高。
  
 应用领域:细分市场,消费行为划分,设计抽样方案等
  
 2、判别分析
  
 基本原理:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。
  
 常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。
  
 注意事项:1. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;
  
 2. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);
  
 3. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。
  
 相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。
  
 应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。
  
 3、 主成分分析/ 因子分析
  
 主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
  
 因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)
  
 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。
  
 (实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)
  
 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。
  
 注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;
  
 2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;
  
 3.主成分分析不要求数据来源于正态分布;
  
 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。
  
 5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。
  
 应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。
  
 4、对应分析/最优尺度分析
  
 基本原理:利用降维的思想以达到简化数据结构的目的,同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。
  
 对应分析:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);
  
 最优尺度分析:可同时分析多个变量间的关系,变量的类型可以是无序多分类,有序多分类或连续性变量,并 对多选题的分析提供了支持。
  
 5、典型相关分析
  
 基本原理:借用主成分分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关。

5. 想问下,聚类分析,判别分析,因子分析,主成分分析和对应分析各自的使用条件是什么?

聚类分析一般是用来描述变量或者样品之间相似性的方法,事先是不知道有多少中类别的。
判别分析是事先知道了有哪些类别,而且有相应的分类数据,那么可以通过已知的分析数据建立一个分类的规则,那么给出一个或多个未知类的数据就可以通过建立的规则对其进行分析,判别其到底是属于哪个类别的。因此
因子分析、主成分分析、对应分析与上面两种分析方法有很大的不同。
主成分分析是通过已给的变量或者样品找到少于其变量个数或者样品个数的几个公共因子,这些公共因子所能代表的含义能够最大限度的解释所有的变量或样品。其实可以理解为当我想分析一些变量时,这些变量的个数太多,分析起来有点复杂,那么可以通过主成分分析对变量的个数进行降维,通过找到的少数几个综合变量(公共因子)来分析的话会使问题变得简单、明了。
而因子分析其实相当于是主成分分析的逆过程,即用找到的公共因子来解释变量。不过寻找公共因子的方法有多种,不只是有主成分方法,还有主轴因子发、极大似然法等。不过可以通过了解主成分分析的过程来理解因子分析的过程。
对应分析其实就是分别对变量和样品做因子分析,通过一张二维图展现两个因子分析的结果而已,方便我们分析变量间、样品间或者变量和样品间的相关性。
 
上面说的是这几种不同分析的的用法,或者说是目的,那么如果要了解他们的使用条件的话,需要从他们的使用目的进行分析。
 
聚类分析一般比较适用于变量(样品)存在相关性的情况,如果所有变量(样品)均不相关的话,那么聚类的结果将会非常差。
判别分析适用于分类数据的分析,及存在某一个变量描述的是样品属于哪个类。
 
主成分分析、因子分析和对应分析对数据一般没有过分的要求,由于均是通过降维的方式来进行分析,所有都要求变量存在一定的相关性。
而对应分析最适用的数据是列联表数据,对于定距尺度和定比例尺度的数据也有一定的适用性,只需要将数据看做成频数即可。但是在做对应分析时,无论是列联表数据、定距尺度数据还是定比例尺度都需要将其数据转化成频率的形式才能分析。其实spss软件都是自动帮助使用者自动转化了。
 
受本人水品所限,了解的主要就这么多,如有差错的地方还望及时指正。谢谢。

想问下,聚类分析,判别分析,因子分析,主成分分析和对应分析各自的使用条件是什么?

6. 常用的统计分析方法总结(聚类分析、主成分分析、因子分析)

 1. 系统聚类法 :由N类--1类   2. 分解法 :由1类---N类   3. K-均值法 :事先在聚类过程中确定在K类,适用于数据量大的数据   4. 有序样品的聚类 :N个样品排序,次序相邻的样品聚成一类   5. 模糊聚类法 :模糊数学的方法,多用于定性变量   6. 加入法 :样品依次加入,全部加入完得到聚类图。
                                           a.夹角余弦   b.相关系数
   a.常用的类间距离定义有8种之多,与之相应的 系统聚类法  也有8种,分别为   a. 中间距离法    b. 最短距离法 :类与类之间的距离最近两个样品的距离。   c. 最长距离法 :类与类之间的距离最远两个样品的距离。【先距离最短,后距离最远合并】   d. 类平均法 :两类元素中任两个样品距离的平均。   e. 重心法 :两个重心xp 和xq 的距离。   f. 可变类平均法    e. 离差平方和法(Ward法) : 该方法的基本思想来自于方差分析,如果分类正确,同 类样品的离差平方和应当较小,类与类的离差平方和较大。 具体做法是先将 n 个样品各自成一类,然后每次缩小一类,每 缩小一类,离差平方和就要增大,选择使方差增加最小的两 类合并,直到所有的样品归为一类为止。
   a.  最短距离法的主要缺点是它有链接聚合的趋势,容易形 成一个比较大的类,大部分样品都被聚在一类中,所以最短 距离法的聚类效果并不好,实际中不提倡使用。   b.  最长距离法克服了最短距离法链接聚合的缺陷,两类合 并以后与其他类的距离是原来两个类中的距离最大者,加大 了合并后的类与其他类的距离。
   a.   定义 :主成分分析(Principal Component Analysis,简记 PCA)是将 多个指标化为少数几个综合指标的一种统计分析方法 ,通常我们把转化成的综合指标称为主成分。
   b.   本质:降维 
   c.   表达 :主成分为原始变量的线性组合   d.  即信息量在空间降维以后信息量没有发生改变,所有主成分的方差之和与原始的方差之和
   e.  多个变量之间有一定的相关性,利用原始变量 的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用。
   f.  累积贡献率一般是 85% 以上
   (1)每一个主成分都是各 原始变量的线性组合    (2)主成分的数目大大少于原始变量的数目   (3)主成分保留了原始变量绝大多数信息   (4)各主成分之间 互不相关 
   a.  基本目的:用 少数几个综合因子去描述多个随机变量之间的相关关系 。   b.  定义:多个变量————少数综合因子(不存在的因子)   c.  显在变量:原始变量X;潜在变量:因子F   d.  X=AF+e【公共因子+特殊因子】   e.  应用: 因子分析主要用于相关性很强的多指标数据的降维处理。    f.  通过研究原始变量相关矩阵内部 的依赖关系,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。   g.  定义:原始的变量是可观测的显在变量,而 综合 的因子是 不可观测 的 潜在变量 ,称为因子。
   i.  根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。   ii.  公共因子 :每组变量代表一个基本结构,并用一个不可观测的综合变量表示。   iii.    对于所研究的某一具体问题,原始变量分解成两部分:
   i.  R 型因子分析——研究变量之间的相关关系   ii. Q 型因子分析——研究样品之间的相关关系
   a.  因子载荷 是第i个变量与第j个公共因子的相关系数,绝对值越大,相关的密切程度越高。   
   
                                           a.  变量 Xi 的共同度是因子载荷矩阵的第i行的元素的平方和。记为
                                           b.  所有的公共因子与特殊因子对变量 Xi 的贡献和为1。
                                                                                                                           a.  确定因子载荷   b.  因子旋转   c.  计算因子得分
   a.  寻找简单结构的载荷矩阵:载荷矩阵A的所有元素都接 近0或±1,则模型的公共因子就易于解释。   b.  如果各主因子的典型代表变量不突出,就需要进行旋转使因子载荷矩阵中载荷的绝对值向0和1两个方向分化。
   a.意义:对公共因子作正交旋转相当于对载荷矩阵 A 作一正交变换 ,右乘正交矩阵 T ,使 A* = AT 能有更鲜明的实际意义。   b.几何意义:是在 m 维空间上对原因子轴作一刚性旋转。 因子旋转不改变公共因子的共同度,这是因为 A A '=ATT'A'=AA'   c.   旋转方法有:正交旋转和斜交旋转    d.  最普遍的是: 最大方差旋转法 
   a.  定义:通过坐标变换使各个因子载荷的方差之和最大。   b.  任何一个变量只在一个因子上有高贡献率,而在 其它因子上的载荷几乎为0;   c.  任何一个因子只在少数变量上有高载荷,而在其 它变量上的载荷几乎为0。
                                           思想相同: 降维    前提条件:各变量间必须有 相关性 ,否则各变量之间没有共享信息

7. 什么是聚类分析,它有什么作用呢?

1、与多元分析的其他方法相比,聚类分析是很粗糙的,理论尚不完善,但由于它成功地应用于心理、经济、社会、管理、医学、地质、生态、地震、气象、考古、企业决策等,因此成了多元分析的重要方法,统计包中都有丰富的软件,对数据进行聚类处理。
2、聚类分析除了独立的统计功能外,还有一个辅助功能,就是和其他统计方法配合,对数据进行预处理。
例如,当总体不清楚时,可对原始数据进行聚类,根据聚类后相似的数据,各自建立回归分析,分析的效果会更好。同时如果聚类不是根据个案,而是对变量先进行聚类,聚类的结果,可以在每一类推出一个最有代表性的变量,从而减少了进入回归方程的变量数。
3、聚类分析是研究按一定特征,对研究对象进行分类的多元统计方法,它并不关心特征及变量间的因果关系。分类的结果,应使类别间个体差异大,而同类的个体差异相对要小。

扩展资料:
聚类效果的检验:
一、聚类分析后得到的每个类别是否可以进行有效的命名,每个类别的特征情况是否符合现实意义,如果研究者可以结合专业知识对每个聚类类别进行命名,即说明聚类效果良好,如果聚类类别无法进行命名,则需要考虑重新进行聚类分析。
二、使用判别分析方法进行判断,将SPSS生成的聚类类别变量作为因变量(Y),而将聚类变量作为自变量(X)进行判别分析,判别分析具体分析聚类变量与类别之间投影关系情况,如果研究人员对聚类分析效果非常在乎,可以使用判别分析进行分析。
三、聚类分析方法的详细过程说明,描述清楚聚类分析的科学使用过程,科学的聚类分析方法使用即是良好结果的前提保障。
是、聚类分析后每个类别样本数量是否均匀,如果聚类结果显示为三个类别,有一个类别样本量非常少,比如低于30,此时很可能说明聚类效果较差。针对聚类效果的判断,研究者主要是结合专业知识判断,即聚类类别是否可以进行有效命名。
参考资料来源:百度百科—聚类分析

什么是聚类分析,它有什么作用呢?

8. 聚类分析法的概述