相关系数的显著性检验
一般情况下,总体相关系数ρ是未知的,通常是将样本相关系数r作为ρ的近似估计值。
但由于r是根据样本数据计算出来的,因此会受到抽样误差的影响。由于样本是随机抽取的,所以r是一个随机变量。当|r|越接近 1,则反映x与y之间线性关系越密切;若是|r|越接近 0,则线性相关程度越小。
但在通常情况下,资料都是通过样本得到的,不同的样本其所得结果也因之而异。若是在某项抽样调查资料中得出相关系数的值很高,能否根据样本相关系数说明总体的相关程度呢?
能否认为总体的相关系数也是很高呢?
这是需要通过检验来回答的问题,就需要考察样本相关系数的可靠性,也就是进行显著性检验。
为了对样本相关系数r的显著性进行检验,需要考察r的抽样分布。r的抽样分布随总体相关系数ρ和样本量n的大小而变化。
当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数ρ很小或接近0时,趋于正态分布的趋势非常明显。而当ρ远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。
从上面的讨论可知,对r的正态性假设具有很大的风险,因此通常情况下不采用正态检验,而采用费希尔提出的t检验,该检验可以用于小样本,也可以用于大样本。