大话数据科学:大数据与机器学习实战(基于R语言)
上QQ阅读APP看书,第一时间看更新

3.4 关联规则的优点和缺点

3.4.1 Apriori算法的优点

(1)Apriori是一个有系统的步骤,经过生成所有的频繁项集和强关联规则,两阶段都进行剪枝,降低了计算量,提升了计算速度。

(2)关联规则的产生结果,很容易了解。

(3)有用的数据挖掘方法,可以产生没有预期的信息或知识。

3.4.2 Apriori算法的缺点

(1)关联规则的变量,只能应用于0-1变量、因子(分类)变量和有序因子(等级变量),数值变量要转换为因子变量。请见【R例3.6】和【R例3.7】。

(2)每次增加频繁项目集的大小,计算项集的支持度,都需要对数据库中的全部记录进行一遍扫描比较,当数据集很大时,频繁项目集的生成速度会显著降低。

(3)对于大型的数据库,存储和计算的代价随记录的增加呈现出几何级数的增加。

(4)算法的有效性有待改善。

3.4.3 关联规则的评估

关联规则的评估,有下列重点。

(1)考虑3.3.2节其他测度值,比较其结果。

(2)是否可以将规则化为行动(actionable)。请见3.5.3节。

(3)这些规则是否很平常、不重要、无价值(trivial),例如:买尿布会买婴儿奶粉。

(4)这些规则是不明显的、但有用的(inexplicable),像是挖掘到宝石的惊奇。

(5)关联规则是监督式还是非监督式?监督式与非监督式的差别在于目标变量,关联规则可以将目标变量放在规则的后项,检查其关联,例如3.6.1节泰坦尼克号的旅客存活的变量。