谢邀,对于此问题也不甚了解,只能粗略回答一下。
1.因子分析的基本步骤
(1)确认待分析的原始变量是否适合作因子分析;
(2)构造因子变量;
(3)利用旋转方法使因子变量具有可解释性;
(4)计算每个样本的因子变量得分。
2.因子分析的数学模型
3.因素分析的主要方式
围绕浓缩原有变量提取因子的核心目标,因子分析主要涉及以下五大基本步骤:
1、因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。
SPSS提供了四个统计量可帮助判断观测数据是否适合作因子分析:
(1)计算相关系数矩阵Correlation Matrix
在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。
(2)计算反映象相关矩阵Anti-image correlation matrix
反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。
反映象相关矩阵的对角线上的元素为某变量的MSA(Measure of
Sample Adequacy)统计量,其数学定义为:
观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。与(1)中最后所述理由相同,一般少采用此方法。
(3)巴特利特球度检验Bartlett test of sphericity
Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。
(4)KMO(Kaiser-Meyer-Oklin
Measure of Smapling Adequacy)
KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。
综上所述,经常采用的方法为巴特利特球度检验Bartlett test of sphericity和KMO(Kaiser-Meyer-Oklin Measure of Smapling
Adequacy)。
2、抽取共同因子,确定因子的数目和求因子解的方法
将原有变量综合成少数几个因子是因子分析的核心内容。本步骤正是研究如何在样本数据的基础上提取和综合因子。决定因素抽取的方法,有“主成份分析法”(principal components analysis)、主轴法、一般化最小平方法、未加权最小平方法、最大概似法、Alpha因素抽取法与映象因素抽取法等。使用者最常使用的是主成份分析法与主轴法,其中,又以主成份分析法使用最为普遍,在SPSS使用手册中,也建议研究者多采用主成份分析法来估计因素负荷量。所谓主成份分析法,就是以较少的成份解释原始变量方差的较大部分。进行主成份分析时,先要将每个变量的数值转换成标准值。主成份分析就是用多个变量组成一个多维空间,然后在空间内投射直线以解释最大的方差,所得的直线就是共同因子,该直线最能代表各个变量的性质,而在此直线上的数值所构成的一个变量就是第一个共同因子,或称第一因子。但是在空间内还有剩余的方差,所以需要投射第二条直线来解释方差。这时,还要依据第二条准则,即投射的第二条直线与第一条直线成直交关系,意为代表不同的方面。第二条直线上的数值所构成的一个变量,称为第二因子。依据该原理可以求出第三、第四或更多的因子。原则上,因子的数目与原始变量的数目相同,但抽取了主要的因子之后,如果剩余的方差很小,就可以放弃其余的因子,以达到简化数据的目的。
因子数目的确定没有精确的定量方法,但常用的方法是借助两个准则来确定因子的个数。一是特征值(eigenvalue)准则,二是碎石图检验(scree
test)准则。特征值准则就是选取特征值大于或等于1的主成份作为初始因子,而放弃特征值小于1的主成份。因为每个变量的方差为1,该准则认为每个保留下来的因子至少应该能解释一个变量的方差,否则达不到精简数据的目的。碎石检验准则是根据因子被提取的顺序绘出特征值随因子个数变化的散点图,根据图的形状来判断因子的个数。散点曲线的特点是由高到低,先陡后平,最后几乎成一条直线。曲线开始变平的前一个点被认为是提取的最大因子数。后面的散点类似于山脚下的碎石,可舍弃而不会丢失很多信息。
3、使因子更具有命名可解释性
通常最初因素抽取后,对因素无法作有效的解释。这时往往需要进行因子旋转(rotation),通过坐标变换使因子解的意义更容易解释。转轴的目的在于改变题项在各因素负荷量的大小,转轴时根据题项与因素结构关系的密切程度,调整各因素负荷量的大小,转轴后,使得变量在每个因素的负荷量不是变大(接近1)就是变得更小(接近0),而非转轴前在每个因素的负荷量大小均差不多,这就使对共同因子的命名和解释变量变得更容易。转轴后,每个共同因素的特征值会改变,但每个变量的共同性不会改变。常用的转轴方法,有最大变异法(Varimax)、四次方最大值法(Quartimax)、相等最大值法(Equamax)、直接斜交转轴法(Direct
Oblimin)、Promax转轴法,其中前三者属于“直交转轴法”(orthogonal rotations),在直交转轴法中,因素(成份)与因素(成份)间没有相关,亦即其相关为0,因素轴间夹角为90°;而后二者(直接斜交转轴、Promax转轴法)属“斜交转轴”(oblique rotations),采用斜交转轴法,表示因素与因素间彼此有某种程度的相关,亦即因素轴间的夹角不是90°。
直交转轴法的优点是因素间提供的信息不会重叠,观察体在某一个因素的分数与在其它因素的分数,彼此独立不相关;而其缺点是研究者迫使因素间不相关,但在实际情境中,它们彼此有相关的可能性很高。因而直交转轴方法偏向较多人为操控方式,不需要正确响应现实世界中自然发生的事件(Bryman&Cramer,1997)。
所谓直交旋转法(orthogonal rotations),就是要求各个因子在旋转时都要保持直角关系,即不相关。在直交旋转时,每个变量的共同性(commonality)是不变的。不同的直交旋转方法有不同的作用。在直交旋转法中,常用于社会科学研究的方式是Varimax旋转法。该方法是在旋转时尽量弄清楚在每一个因子上各个变量的因子负荷情况,也即让因子矩阵中每一列的的值尽可能变成1或0,该旋转法的作用是突出每个因子的性质,可以更清楚哪些变量是属于它的。由此可见,Varimax旋转法可以帮助找出多个因子,以澄清概念的内容。Quartimax旋转法可以则可以尽量弄清楚每个变量在各个因子上的负荷情况,即让每个变量在某个因子上的负荷尽可能等于1,而在其它因子上则尽可能等于0。该方法可以增强第一因子的解释力,而使其它因子的效力减弱。可见Quartimax旋转法适合于找出一个最强效力的因子。Equamax旋转法则是一种折中的做法,即尽可能简化因子,也可弄清楚负荷情况。其缺点是可能两方面都未照顾好。
斜交旋转(oblique rotarion)方法是要求在旋转时各个因子之间呈斜交的关系,表示允许该因子与因子之间有某种程度上的相关。斜交旋转中,因子之间的夹可以是任意的,所以用斜交因子描述变量可以使因子结构更为简洁。选择直接斜交旋转时,必须指定Delta值。该值的取值范围在0~-1之间,0值产生最高相关因子,大的负数产生旋转的结果与直交接近。Promax斜交旋转方法也允许因子彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。
综上所述,不同的因子旋转方式各有其特点。因此,究竟选择何种方式进行因子旋转取决于研究问题的需要。如果因子分析的目的只是进行数据简化,而因子的确切含义是什么并不重要,就应该选择直交旋转。如果因子分析的目的是要得到理论上有意义的因子,应该选择斜交因子。事实上,研究中很少有完全不相关的变量,所以,从理论上看斜交旋转优于直交旋转。但是斜交旋转中因子之间的斜交程度受研究者定义的参数的影响,而且斜交选装中所允许的因子之间的相关程度是很小的,因为没有人会接受两个高度相关的共同因子。如果两个因子确实高度相关,大多数研究者会选取更少的因子重新进行分析。因此,斜交旋转的优越性大打折扣。在实际研究中,直交旋转(尤其是Varimax旋转法)得到更广泛的运用。
4、决定因素与命名
转轴后,要决定因素数目,选取较少因素层面,获得较大的解释量。在因素命名与结果解释上,必要时可将因素计算后之分数存储,作为其它程序分析之输入变量。
5、计算各样本的因子得分
因子分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因子代替原有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分,为进一步的分析奠定基础。
地质生一枚,Geology isn’t a real science!啊……
— 完 —
本文作者:伍六一
【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)
此问题还有 5 个回答,查看全部。
延伸阅读:
数据分析和挖掘有哪些公开的数据来源?
在数据分析、挖掘方面,有哪些好书值得推荐?