数据正规化:什么意思、计算公式、例子案例
数据正规化就是将数据重新发布在一个特定范围内(0~1)的过程。因为如果数据单位不同,则数据之间很难做比较,例如,年龄和年薪两项指标,年龄差10岁和年薪差30万元并不在一个数量级上,很难对这两者进行比较。所以需要对数据进行正规化处理。
常用数据正规化的方法有:极值正规化和Z-分数正规化。
极值正规化的公式为:
其中Min为数据的最小值,Max为数据的最大值。
例如,一家公司的员工收入为20000~100000元,则月收入30000元的员工经过正规化处理后的收入为:
Z-分数正规化是将该值减去属性的平均值(μ),再除以属性的标准差(σ)。将属性A的值v正规化为v’的公式是:
例如,公司员工的平均收入为35000元,标准差为10000元,则收入30000元的员工正规化后的收入为:
其中负数表示低于平均值,正数表示高于平均值。