CHAID算法:核心思想、分类过程
CHAID (Chi-Squared Automatic Interaction Detection,卡方自动交互检测)算法由Kass于1980年提出,其核心思想是:
根据给定的目标变量和经过筛选的特征指标(即预测变量)对样本进行最优分割,按照卡方检验的显著性进行列联表的自动判断分组。
CHAID算法的字段选择使用方法检验。
其分类过程是:
首先选定分类的目标变量,然后用分类指标与目标变量进行交叉分类,产生一系列二维分类表。再分别计算二维分类表的卡方值,比较 P值的大小,以P值最小的二维表作为最佳初始分类表。在最佳初始分类表的基础上继续使用分类指标对目标变量进行分类。重复上述过程,直到P值大于设定的有统计意义的α值时分类才停止。