什么是非参数核密度估计：基本原理

2022年5月31日19:37:39已关闭评论

核密度估计的原理和直方图有些类似，它也是计算某一点周围的点的个数，只不过是对于近处的点的考虑多一点，对于远处的点的考虑少一些（甚至不考虑）。

下面给出非参数核密度估计的正式定义：

设 K （ g ）为 R 上的一个给定的概率密度函数， h _n＞0是一个与 n 有关的常数，满足 n →∞， h _n→0，则称

为 f （ x ）的一个核密度估计，其中 f （ g ）为一已知核密度，满足

h _n称为窗宽或光滑参数。

从核密度估计的定义可以看出，在给定样本之后，一个核密度估计的性能好坏，取决于核函数及光滑参数的选取。其中 K （ g ）在理论上不是一个概率密度函数，也不一定要求它为负，但在实际应用中，通常选取 K （ g ）为概率密度函数。由于 K （ g ）的光滑性将直接影响待估函数 f （ x ）的光滑性，为了保证估计精度并且缩小偏差，就需要对 K （ g ）施加一定的条件，如对称性、一阶距为0、有界性、连续性等。而且 h _n为一特殊的常数，实质上是与样本大小有关的一个参变数。 h _n过大，估计的偏差就大，使估计过度平均化， h _n过小，估计特别是尾部则出现较大的干扰，有增大曲线拟合方差的趋势。