因子分析(Factor analysis)是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法。因子分析的形成和早期发展一般认为是从查尔斯·斯皮尔曼(Charles Spearman)在1904年发表的文章开始。因子分析是研究通过相关矩阵或协差阵的内部依赖关系,探求数据中的基本结构,它将多个变量浓缩为少数几个因子,以再现原始变量与因子之间的相关关系。
因子分析的基本思路是用较少的相互独立的因子变量来表现原始变量的绝大部分信息,这一思想可以用一个数学模型来表示。设有p个观测指标(变量):x 1 ,x 2 ,…,x p ,其中x i 是均值为零、单位方差的标准化变量。则因子模型的一般表达形式为:
x i =u i1 f 1 +u i2 f 2 +…+u im f m +ε i (i=1,2,…,p且m≤p)
在这个模型中,f 1 ,f 2 ,…,f m 为因子变量或公共因子,它们是各个观测变量所共有的因子,解释了变量之间的相关,可以把它们理解为在高维空间中的互相垂直的m个坐标轴;u ij 为因子载荷,是第i个原有变量在第j个因子变量上的负荷,如果把变量x i 看成m维因子空间中的一个向量,则u ij 表示x i 在坐标轴f j 上的投影,相当于多元回归分析模型中的标准回归系数;ε i 为特殊因子,表示了原有变量不能被公共因子所解释的部分,相当于多元回归分析模型中的残差项。