如果用横坐标表示离散变量的可能取值,纵坐标表示概率,那么任一离散变量的概率分布都可以绘制成相应的条形图(变量的每一个可能取值相当于一个“类别”)。而对于在一个区间内连续取值的连续变量来说,由于横坐标的取值不再是离散的而是连续的,就需要绘制直方图。可以想象,如果不断地细分连续变量取值的区间,直方图的矩形数目就会不断地增加,最终直方图的轮廓就会越来越接近一条光滑的曲线。由于纵坐标原本代表的是概率,所有矩形的高度和为1,通过调整量纲,可以使这条曲线下面的矩形面积总和为1。
图5-1直观展示了这一过程。
图5-1 不断细分的直方图和逼近的曲线
上面描述的曲线即被称为连续变量的 概率密度函数(probability density function,pdf) ,简称 密度函数(density function) 或 密度(density) ,通常记为 f ( x )。从理论上很容易理解,连续变量在某个区间内取值的概率就是其密度曲线在该区间上覆盖的面积,也就是概率密度函数在该区间上的积分。显然,概率密度函数在某个点的积分为0。因此,连续变量恰好等于某个特定数值的概率都是0,通常只有计算连续变量在某个(或多个)区间内取值的概率才有实际意义。
与离散型随机变量类似,连续型随机变量的概率密度函数应满足:
此外,利用概率密度函数还可以计算连续型随机变量的总体均值、总体方差和总体标准差,用于反映总体分布特征。