K 近邻估计是无论欧氏距离多少,只要是 x 点的最近的 k 个点之一就可以参与加权。一种具体的 K 近邻估计( K -nearest neighbor estimation)为
令 d 1 ( x )≤ d 2 ( x )≤…≤ d n ( x )表示按升幂排列的 x 到所有 n 个样本点的欧氏距离。显然, k 的取值决定了估计密度曲线的光滑程度(见图6-5)。 k 越大则越光滑,还可以与核估计结合起来定义广义 K 近邻估计。
K 近邻密度估计方法的主要思想是事先不规定核函数,而是固定对被估计的点贡献的样本点数 n ,以被估计点为中心,让领域向周围扩张反复迭代,直到扩大的领域中含有 n 个点为止,这一方法是根据核密度估计方法的固定带宽的缺陷提出来的。它的缺点是必须事先根据样本点总数估计规定一个贡献点数 n ,并且经常会出现不连续的梯度点,当带宽取得较大时,估计精确度不如核密度估计,这样使得它成为一种不被看好的密度估计。
许多学者一般不使用 K 近邻估计产生密度,而是用 K 邻近估计方法来对数据进行分类。