通过离散化变换数据的方法有哪些?

2024年4月2日13:39:42通过离散化变换数据的方法有哪些?已关闭评论

(1)通过分箱离散化。

分箱是一种基于指定箱个数的自顶向下的分裂技术,而分箱离散化是一种无监督离散化方法,主要分为三类。

1)等宽分箱:将变量的取值范围分为 个等宽的区间,每个区间当作一个分箱。

2)等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为 部分,每部分当作一个分箱,例如,数值最小的1/ 比例的观测形成第一个分箱等。

3)基于 均值聚类的分箱:使用 均值聚类法将观测值聚为 类,但在聚类过程中需要保证分箱的有序性:第一个分箱中所有观测值都要小于第二个分箱中的观测值,第二个分箱中所有观测值都要小于第三个分箱中的观测值等。

这些方法也可以用作数据归约和概念分层产生的离散化方法。例如,通过使用等宽或等频分箱,然后用箱均值或中位数替换箱中的每个值,可以将属性值离散化,就像用箱的均值或箱的中位数光滑一样。分箱并不使用类信息,因此是一种无监督的离散化技术,它对用户指定的箱个数很敏感,也容易受离群点的影响。

(2)通过直方图分析离散化。

像分箱一样,直方图分析也是一种无监督的离散化技术,因为它也不使用类信息。直方图把属性 的值划分成不相交的区间,称为桶或箱。

可以使用各种划分规则定义直方图,例如等宽直方图将值分成相等分区或区间。在理想情况下,使用等频直方图,值会被均匀划分,每个分区都会包括相同个数的数据元组。

直方图分析算法可以递归地用于每个分区,自动产生多级概念分层,直到达到一个预先设定的概念层数,过程终止。也可以对每一层使用最小区间长度来控制递归过程。最小区间长度设定每层每个分区的最小宽度,或每层每个分区中值的最少数目。此外,直方图也可以根据数据分布的聚类分析进行划分。

(3)通过聚类、决策树和相关性分析离散化。

聚类分析是一种常见的离散化方法,可以通过将属性 的值划分成簇或组来离散化数值属性 。聚类考虑 的分布及数据点的邻近性,因此可以产生高质量的离散化结果。由图5-2可以看出,聚类将类似的值组织成群或簇,因此落在簇集合之外的值被视为离群点。

图5-2 基于聚类分析的数据离散化

主要用于处理模式分类问题的决策树生成技术同样也可用于离散化分析,这类技术使用自顶向下的划分方法。离散化的决策树方法是监督学习方法之一,因为它使用类标号,其主要思想是选择划分点使一个给定的结果分区包含尽可能多的同类元组。

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量变量之间的相关密切程度。在进行离散变量之间的相关性分析时,我们常常用到卡方检验。卡方检验是一种用途很广的计数资料的假设检验方法,属于非参数检验的范畴,主要用于比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析,根本思想在于比较理论频数和实际频数的吻合程度或拟合优度程度。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。