编写说明
工业大数据是工业领域相关数据集的总称,是工业互联网的核心,是智能制造的关键。工业大数据分析技术作为工业大数据的核心技术之一,是工业智能化发展的重要基础和关键支撑。为此,在工业互联网产业联盟的指导下,大数据特设组主持编写了这本《工业大数据分析指南》。
本书旨在对通用的工业大数据分析方法和分析流程进行归纳和总结,对其关键共性进行辨识、抽象和提升,而非针对某一特定行业、企业或产品进行阐述。本书更加关注方法论而非某些具体的技术,因此,具有更加广泛的通用性和相对普遍的指导意义。
本书共9章,第1章论述了工业大数据分析的概念、特殊性及常见的问题。第2章提出了工业大数据分析框架,简要介绍了CRISP-DM模型,并针对该模型落地的难点及其使用的指导思想展开讨论。第3~8章依次对业务理解、数据理解、数据准备、数据建模、模型的验证与评估、模型的部署这6个CRISP-DM模型的基本步骤进行了详细的阐述,从需求分析到目标评估,从数据来源到数据分类,从数据预处理到建模过程,从模型验证到部署问题处理,对每个步骤中的原理方法、分析过程、处理方式、问题排除等都进行了讲解和说明。第9章对工业大数据分析的未来进行了展望。
本书由工业互联网产业联盟大数据特设组组长单位清华大学(大数据系统软件国家工程实验室)牵头编写,在编写过程中得到了工信部领导的悉心指导和相关单位的有力支持。特别感谢清华大学孙家广院士、工信部信软司谢少锋司长、中国信息通信研究院余晓晖副院长等给予的全面指导。同时,北京工业大数据创新中心的李三华、田春华,清华大学的任艮全、徐哲、强逍等在本书的编写过程中也给予了无私的帮助,在此表示诚挚的谢意!
工业大数据作为新兴概念,其数据分析的原则、手段、方法和流程还很模糊,对海量数据的挖掘、分析和处理等技术仍在不断地发展和进步,由于作者自身的能力和水平有限,本书不可避免地存在诸多的缺点和不足,期待各位读者能够积极发现问题,并予以批评指正。
工业互联网产业联盟 大数据系统软件国家工程实验室
2019年5月