什么是数值归约:数值归约的方法
数值归约是指用较简单的数据表示形式替换原数据,或者采用较小的数据单位,或者用数据模型代替数据以减少数据量。常用的方法有直方图、用聚类数据表示实际数据、抽样和参数回归法等。
1.直方图
使用分箱来近似数据分布,是一种流行的数据归约形式。属性A的直方图将A的数据分布划分为不相交的子集/桶。如果每个桶只代表单个属性值/频率对,则该桶称为单值桶。通常,桶表示给定属性的一个连续区间。
2.聚类
聚类技术把数据元组看作对象。它将对象划分为群或簇,使得在一个簇中的对象相互“相似”,而与其他簇中的对象“相异”。在数据归约中,用数据的簇代表替换实际数据。
3.抽样
抽样可以作为一种数据归约技术来使用,因为它允许用比数据小得多的随机样本(子集)表示大型数据集。采用抽样进行数据归约的优点是:得到样本的花费正比于样本集的大小,而不是数据集的大小。
4.参数回归
参数回归通常采用一个模型来评估数据,该方法只需要存放参数而不用存放实际数据。这种方法能极大地减少数据量,但只对数值型数据有效。