方差是用来度量随机变量和其数学期望之间偏离程度的量。随机变量与其数学期望之间的偏离其实就是误差。所以方差也可以认为是描述一个随机变量内部误差的统计量。与此相对应地,协方差(Covariance)是一种用来度量两个随机变量之总体误差的统计量。
更为正式的表述应该为:设( X , Y )是二维随机变量,则称 E {[ X - E ( X )][ Y - E ( Y )]}为随机变量 X 与 Y 的协方差,记为cov( X , Y ),即
cov( X , Y )= E {[ X - E ( X )][ Y - E ( Y )]}
协方差表示的是两个变量的总体的误差。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
与协方差息息相关的另外一个概念是相关系数(或称标准协方差),它的定义为:设( X , Y )是二维随机变量,若cov( X , Y ), D ( X ), D ( Y )都存在,且 D ( X )>0, D ( Y )>0,则称 ρ XY 为随机变量 X 与 Y 的相关系数,即
还可以证明-1≤ ρ XY ≤1。
如果协方差的结果为正值,则说明两者是正相关的,结果为负值就说明负相关的,如果结果为0,也就是统计上说的“相互独立”,即两者不相关。另外,从协方差的定义上我们也可以看出一些显而易见的性质,如
- cov( X , X )= D ( X )
- cov( X , Y )=cov( Y , X )
显然第一个性质其实就表明,方差是协方差的一种特殊情况,即当两个变量是相同的情况。
两个随机变量之间的关系可以用一个协方差来表示。对于由 n 个随机变量组成的一个向量,我们想知道其中每对随机变量之间的关系,就会涉及多个协方差。协方差多了就自然会想到用矩阵形式来表示,也就是协方差矩阵。
设 n 维随机变量( X 1 ,…, X n )的二阶中心矩存在,记为
c ij =cov( X i , Y j )= E {[ X i - E ( X i )][ Y j - E ( Y j )]}, i , j =1,2,…, n
则称矩阵
为 n 维随机变量( X 1 ,…, X n )的协方差矩阵。