工业大数据工程:系统、方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.2 敏捷工业大数据工程方法

工业大数据包括数据资源、数据分析模型、数据应用3个要素,为提高工业跨领域创新的迭代速度,结合传统的咨询方法和敏捷的体系,我们提出了一套敏捷工业大数据工程方法,如图1-10所示,主要有3个构成要素:① 数据资源化,基于工业物理对象的数据建模与集成方法,将海量异构的数据关联成有领域语义的信息资源;② 知识结构化,基于跨行业数据挖掘标准流程(Cross Industry Standard Process for Data Mining,CRISP-DM)[22]的敏捷工业数据分析方法,将大量数据蕴含的规律和领域专家的非结构化知识变成形式化模型,并提供低代码的工业数据应用开发方法;③ 研用一体化,云边协同的机器学习操作(Machine Learning Operations,MLOps)方法,将模型研发与部署运行运维一体化,支撑工业企业的自主研发能力建设。

图1-10 敏捷工业大数据工程方法的3个构成要素

1.基于工业物理对象的数据建模与集成方法:领域驱动,按需治理

数据资源化是指数据提纯和二次加工的过程,即提高数据质量和价值密度的过程。为支持敏捷的数据创新,数据资源的结构化建设很重要。从逻辑上应该对原始采集的数据、转化的数据、集合的数据等数据分层次结构化,与经典的企业数据仓库建设类似。但在执行上,应遵循最小可行产品(Minimum Viable Product,MVP)的思路,采用单点突破的建设方式,如图1-11所示。逐层建设不但周期长,也不现实。由于认知的限制,一次建设不可能完美,需要定期规整化。

图1-11 数据资源的单点突破建设方式

工业大数据的强机理与强关联性决定了只有建立起描述业务上下文的工业物理对象模型,才能有效支撑后续的分析与应用,例如,设备全生命周期档案(设备智能运维场景)、物料流转与工艺状态档案(质量分析场景)、需求动力学关系图(需求预测场景)等。这需要在多源异构的原始数据上,二次或三次加工数据。以设备全生命周期档案为例,该档案记录着设备的过往及不同维度的信息,包括设备的基本信息、设备结构(Bill of Material,BOM)、维修履历、故障记录、异常预警记录和工况等,需要从企业资源计划(Enterprise Resource Planning,ERP)、企业资产管理(Enterprise Asset Management,EAM)、SCADA等原始数据提取加工。

领域建模也是梳理支撑数据的过程。根据业务问题,从逻辑角度思考哪些数据对业务有价值,结合其逻辑结构(例如,时序大数据、非结构化数据、关系型数据)建立领域模型,然后与现有的数据源映射,明确其存储形式和访问方式,从而指导数据处理方式。但原始数据通常有很多历史遗漏质量问题,多个数据源间存在失配或不一致的情形,同一类数据的数据结构存在着演化,这需要大量细致的数据治理工作,才能将其变成业务可用的数据。

数据治理应该有效益意识,按需治理,否则可能出现投入产出不匹配的情形。很多数据质量问题治理策略与应用场景有关,例如,原始监测时序数据中的离群值,在设备健康分析前需要滤除,但在传感器失效分析中则是高价值数据。另外,到一定程度后,数据价值提升的收益和代价是不对等的,95%的精确度和99%的精确度对分析应用来说也许一样好,但二者付出的代价差别很大。

2.基于CRISP-DM的敏捷工业数据分析方法:大数据与小数据无缝融合的研发迭代

传统的统计学习建模采用CRISP-DM的过程方法,将数据分析过程总结为业务理解、数据理解、数据准备、模型建立、模型评估、模型部署6个阶段,因为业务定义不完整、数据质量不确定等原因,不同阶段间存在着大量局部迭代,CRISP-DM本身也是一种敏捷迭代的过程方法。

在工业大数据应用中,除统计学习外,数据分析算法还包含计算公式、专家规则、运筹优化等类型。另外,机理与经验等先验知识是工业大数据分析的一部分,跨领域协作更为重要,因此,需要在CRISP-DM方法基础上,针对工业分析和典型应用进行细化,形成一套工业分析的协同研发方法,用结构化、量化的思维方式进行分析、拆解和解决问题,同时考虑小数据集上模型研发与大数据集上模型验证的无缝衔接。

3.云边协同的MLOps方法:研用一体化,支撑快速迭代

在传统数据分析模式下,模型研发与运行、运维是两个独立阶段,甚至很多研发模型需要重新开发,业务价值落地周期长。MLOps或DataOps方法[23]尝试消除这样的串行工作,形成如图1-12所示的模型研发的快速迭代式推进过程。

图1-12 模型研发的快速迭代式推进过程