上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第2章 工业大数据分析框架
2.1 CRISP-DM模型
CRISP-DM模型是欧盟起草的跨行业数据挖掘标准流程(Cross-Industry Standard Process for Data Mining)。这个标准以数据为中心,将相关工作分成业务理解、数据理解、数据准备、建模、验证与评估、实施与运行6个基本步骤,如图2-1所示。在该模型中,相关步骤不是顺次完成的,而是存在多次循环和反复。在业务理解和数据理解之间、数据准备和建模之间,都存在反复的过程。这意味着,这两对过程是在交替深入的过程中进行的,更大的一次反复出现在模型验证与评估之后。
图2-1 CRISP-DM模型
对多数数据分析工作来说,人们并不希望出现上述步骤反复交替的过程,因为反复交替意味着工作的重复和低效。而这种现象出现在公认的标准中,是因为分析过程存在极大的不确定性,这样的反复往往是不可避免的。
长期以来,很多人用CRISP-DM模型指导工业大数据分析过程。在很多场景下,这个模型的原理是可行的、行之有效的。但是,当我们把它用于工业过程数据分析时,发现问题的复杂性会急剧上升,各个步骤中反复的次数大大增加,验证评估不合格导致从头再来的情况非常普遍。这些现象导致工业大数据分析工作的效率显著下降。