统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.17.3 基于得分组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比

图10.20是4变量EDA模型基于得分组的平滑预测与实际值散点图,这些得分组的变量定义与3变量EDA模型相同,所以容易进行对比。我们看到图上除了一个异常点(标记为FO)之外,其他点都紧密围绕在45°线周围,相关系数rsm.actual,sm.predicted:scoregroup是0.784。

图10.20 4变量EDA模型基于得分组的平滑预测与实际值散点图

剔除这个点之后的相关系数rsm.actual,sm.predicted:scoregroup-FO是0.915。比较基于得分组的3变量和4变量模型的相关系数,可以看到3变量EDA模型的点明显更密集地围绕着45°线。这个3变量EDA模型的相关系数明显比4变量EDA模型大8.17%(=(0.848-0.784)/0.784)。这说明基于得分组的3变量EDA模型有更好的预测能力。

尽管如此,如果去掉那个FO得分组,再比较会得到不同结果。这个去掉FO得分组的4变量EDA模型的相关系数比3变量模型大7.85%(=(0.915-0.848)/0.848)。这说明这个不带FO得分组的4变量EDA模型要比3变量EDA模型的预测质量好。