核密度估计的原理和直方图有些类似,它也是计算某一点周围的点的个数,只不过是对于近处的点的考虑多一点,对于远处的点的考虑少一些(甚至不考虑)。
下面给出非参数核密度估计的正式定义:
设 K ( g )为 R 上的一个给定的概率密度函数, h n >0是一个与 n 有关的常数,满足 n →∞, h n →0,则称
为 f ( x )的一个核密度估计,其中 f ( g )为一已知核密度,满足
h n 称为窗宽或光滑参数。
从核密度估计的定义可以看出,在给定样本之后,一个核密度估计的性能好坏,取决于核函数及光滑参数的选取。其中 K ( g )在理论上不是一个概率密度函数,也不一定要求它为负,但在实际应用中,通常选取 K ( g )为概率密度函数。由于 K ( g )的光滑性将直接影响待估函数 f ( x )的光滑性,为了保证估计精度并且缩小偏差,就需要对 K ( g )施加一定的条件,如对称性、一阶距为0、有界性、连续性等。而且 h n 为一特殊的常数,实质上是与样本大小有关的一个参变数。 h n 过大,估计的偏差就大,使估计过度平均化, h n 过小,估计特别是尾部则出现较大的干扰,有增大曲线拟合方差的趋势。
对于 h n 的选择有很多种方法,比如交叉验证法(cross-validation),直接插入法(direct plug-in),在各个局部用不同的带宽,或者估计出一个光滑的带宽函数 h n ( x )等。