12.2 模型树算法
M5P算法的构造过程是先使用决策树生成算法构建一棵树,不同的是决策树中在每个中间节点的劈分准则是最大化信息增益,而在M5P中使用的是最小化每个分支中子集类别属性的差异。M5P构造树的过程其实就是不断递归的劈分数据集的过程,劈分的标准就是将达到某个节点的样本的类属性标准差作为该节点误差的量度,并通过测试该节点数据各个属性计算误差的期望减小值,使期望误差减小值最大的属性被选择做劈分属性。标准差减小值(SDR)的计算公式为:
SDR=sd(T)-×sd(Ti)
(12.2.1)
公式中T代表到达该节点的样本集,T1,T2,…代表通过劈分选择的属性得到的子集,在M5P中采用二叉劈分,所以i的取值为1和2。
...... (共427字) [阅读本文]>>