方差分析的基本任务是检验两个以上的总体均值是否存在差异。不同于基于抽样分布理论的两总体均值之差的假设检验方法,方差分析基于对观测变量的方差进行分解来判断多总体均值之间是否存在差异,通过对数据误差来源的分析来判断不同总体的均值是否有差异,进而分析各因素对观测变量是否有显著影响。
影响观测变量的因素有很多,可以分为两大类。
(1)目标因素。目标因素的不同水平取值会影响观测变量的取值,即控制因素不同水平的取值会产生观测变量值的差异,这一差异构成观测变量方差的一部分。
(2)其他因素。其他因素又可以分为两部分,一部分是除目标因素之外的其他控制因素或控制变量,另一部分是随机因素。
如果其他控制因素中已经不存在对观测变量影响特别明显的因素变量,则影响观测变量的因素只有目标因素和随机因素。例如,在不同厂商轮胎磨损程度的研究中,轮胎“磨损程度”是观测变量(因变量),“厂商”是目标因素(自变量),这里没有其他控制因素,所以其他影响“磨损程度”的因素就是随机因素。
要检测目标因素对观测变量影响的显著性,首先需要将控制因素固定下来,即将这些因素对观测变量的影响剔除,再进一步测定目标因素的影响程度与随机因素的影响程度。控制因素的剔除方法主要有两种:一种是确定总体时直接将各个单位在这些因素上的取值固定;另一种是目标因素各个水平值确定的子总体中,控制因素的取值力求随机化,以最大限度降低这些因素对观测变量的影响。
在剔除了控制因素的影响后,观测变量的方差可分为以下两部分:由目标因素引起的部分和由随机因素引起的部分。反映观测变量变化的总方差可分解为由目标因素引起的系统性方差和由随机因素引起的随机方差两部分。相应地,可由总离差平方和、组间离差平方和、组内离差平方和来度量。总离差平方和SST用来度量观测变量的总变异程度。
组间离差平方和SSA用来度量目标因素不同水平各子总体观测变量均值的差异程度,这一差异既包括目标因素水平本身的系统性因素造成的系统误差,又包括抽样形成的随机误差。组内离差平方和SSE是度量目标因素取同一水平值时观测变量取值的差异程度,这一差异只包括随机因素的影响。总离差平方和SST等于组间离差平方和SSA和组内离差平方和SSE之和(各离差平方和的计算方法将在第二节介绍),即:
总离差平方和=组间离差平方和+组内离差平方和
SST = SSA + SSE
组间离差平方和SSA既包括系统方差,又包括随机方差;而组内离差平方和SSE仅包括随机方差。因此,目标因素对观测变量影响的显著性可以通过对比SSA和SSE的大小来观察。
如果目标因素对观测变量的影响不大,那么SSA和SSE经过平均后的数值(称为均方)就应该很接近,其比值应该会很接近1;反之,如果目标因素对观测变量的影响较大,那么SSA和SSE经过平均后的数值(称为均方)就应该有明显差异,其比值应该明显大于 1。
综上所述,借助于组间均方与组内均方比值统计量的分布理论,可以通过对比一次抽样得到的检验统计量的取值与给定显著性水平下的临界值或者采用P值规则,来对目标因素不同水平下观测变量的均值是否存在显著性差异进行决策。