核密度图(kernel density plot)不仅能够直观地显示数据分布的尾巴,而且还能够显示分布的峰顶(peak)、肩部(shoulder)和凸块(bump)。
核密度估计是估计连续性随机变量概率密度函数的方法,目的是依据样本估计一个真实的未知概率密度函数。核密度估计的函数是:
其中, K (·)是核密度函数, h 是平滑参数,又称带宽(bandwidth), n 是样本量(Ugarte et al .,2015,p.115)。
常用的核密度函数有高斯(正态)函数、矩形(均匀)函数和三角函数等。这些核密度函数的特点是单峰(unimodal)、围绕 0 点对称和曲线下的单位面积为 1(Keen,2010,p.161)。R默认的核密度估计函数是高斯密度函数。
在核密度估计中,选择适合的带宽非常重要。视觉上,带宽过窄导致密度估计曲线过于起伏,使分布模式难以概括;带宽过宽导致曲线过于平滑,给分布形状的判断带来错觉(鲍贵,2017,p.137)。R默认的带宽采用Silverman经验法则(Silverman’s rule of thumb)(Silverman,1986,pp.47-48): h =0.9 An -1/5 ,其中 A = min ( SD , IQR /1.34),即 A 取标准差( SD )和四分位距( IQR )除以 1.34 的商之间的较小值。
R绘制核密度图的函数是plot(density(x)),其中x是数值向量。如果采用核密度图概括直方图一节中使用的DV数据的分布特点,执行R命令plot(density(DV))得到类似于图2.18所示的核密度图。
图2.18 数据分布核密度图
图2.18显示,DV数据分布似乎有双峰,主峰呈尖峰状,中间有断裂,说明数据缺乏连续性;右尾巴有两个凸块,使右尾巴拖长。