预测型数据挖掘(有监督数据挖掘)的功能

2020年10月25日19:34:27预测型数据挖掘(有监督数据挖掘)的功能已关闭评论

预测型数据挖掘(有监督数据挖掘)的功能

预测型数据挖掘的功能分为两大类,即分类和预测,主要用于根据数据进行准确预测。

1.分类

分类用于预测数据所隶属的类别,例如,根据贷款客户的各种资料,预测其是否能够按时还钱,也就是预测该贷款客户是属于“好客户”,还是“坏客户”。

例如,在第2章所提到的杂志社想要做一个模型,用来预测客户是否会购买汽车杂志。该杂志社收集了14个客户的资料,如图4-2所示。第一列是Record ID,此数据只是一个编号,基本上没什么用。最后一列是 Subscription,也就是目标字段,代表客户是否购买了汽车杂志,如果购买了,则为“yes”,反之则为“no”。中间3列为输入字段,即与客户是否购买汽车杂志有关的字段——Car (驾驶的汽车类型)、Age(年龄)和 Children(是否有小孩)。而分类模型的主要功能就是找出输入字段与目标字段之间的关系,进而完成预测。也就是说,假设一个客户驾驶的汽车类型是Sedan,年龄为35岁,那么这个模型就会预测出其是否会购买汽车杂志,以及购买汽车杂志的概率为多大。

总的来说,要发挥预测型数据挖掘的分类功能,就要有一个数据集,并且这个数据集中要包含ID、输入字段和目标字段3个部分。特别要注意的是,目标字段一定要是类别型变量。分类功能常用的算法有贝叶斯网络、决策树、神经网络和Logistic回归。

2.预测

预测功能用于预测数据所对应的数值,例如,银行在进行房贷业务时,往往会对贷款客户的房子进行估价,其主要运用的便是数据挖掘中的预测功能,即根据各种数据资料来预估房子的价格。

例如,如图4-3所示,这里收集了10所房子的数据,包括Location(地点)、Type(类别)、Miles (离学校的距离,英里)、SF(大小,平方米)、CM(社区户数)及Home Price(成交价,千元)。预测模型与分类模型十分相似,首先,它们都有ID,并且ID都只是一个编号,基本没什么用;其次,它们都有输入字段,并且输入字段都与目标字段有着一定的联系;最后,它们都有目标字段,也就是最后要预测的字段,但分类模型的目标字段是类别型变量,而预测模型的目标字段是数值型变量。假设一所房子的地点在乡村,距离学校3千米,大小为1500平方米,则可以运用预测模型来预估这所房子的价格。

  • 版权声明:本篇文章(包括图片)来自网络,由程序自动采集,著作权(版权)归原作者所有,如有侵权联系我们删除,联系方式(QQ:452038415)。