1.2.4 模型形式与应用范式
工业数据分析常常需要融合多类模型,而不仅仅是统计学习算法。刻画物理世界有3大类模型,如图1-2所示。认知模型提供了一些概念和理念层面的指导,是物理世界在概念和结构上的抽象;唯象模型[6]从输入—输出关系上逼近物理过程,主要包括统计模型(本节将统计模型、分析模型、数据挖掘和机器学习等提法等同,不做严格区分)和模拟仿真;机理模型是基于公理体系和简化假设等逻辑体系下的模型;经验模型是对过程和决策的经验性总结,包括专家规则和经验公式。当然,不同类别的模型也可以相互转化,例如,开普勒三定律是唯象模型,在广泛被证明前甚至也可以被认为是经验公式,一旦形成相对完善的公理体系,万有引力定律就成为机理模型。
图1-2 刻画物理世界的3大类模型
在行业应用中采用的模型大多是形式化模型,下面重点讨论理论模型和经验模型,并且不刻意区分专家规则与经验公式(以专家规则为代表讨论)。不同类别模型的特点和适用场景如表1-3所示,简单来说,机理模型推演能力强,但不够精准(很多理想化假设);统计模型自适应能力强,但不充分(概率意义上的外推);仿真模型对极端情形检验能力强(对系统和策略设计很有用),但通常不解决日常运行情形;专家规则实用,但不完备(有很多反例,逻辑自洽性差)。因此,在解决问题时,需要根据实际问题的情形选择模型的类型,或者采用多种类型的融合。
表1-3 各类模型的特点与适用场景
1.统计模型的应用范式
一般来说,大数据模型的作用与机理复杂度密切相关。本节从产品相似度和机理复杂度两个维度出发,将分析算法应用总结为6个范式,统计模型在不同情形中的作用如图1-3所示,在不同的组合情形下,统计模型可以发挥的作用不同。
图1-3 统计模型在不同情形中的作用
(1)从工业产品的相似度来看,可分为大量相似产品(例如,风力发电机组)和少量定制化产品(例如,大型水力发电机组)。对于大量相似产品,在数据分析时可以充分利用产品间的交叉信息;而对于少量定制化产品,应深度挖掘其时间维度的信息。
(2)从产品机理的复杂度来看,可分为无须了解内部机理的产品(例如,电子消费品,通常不需要深入元器件内部分析)、简单明确机理产品(例如,风力发电机组)、复杂机理产品(例如,大型锅炉)。当工业大数据分析被应用到复杂机理产品时,应更加注重机理模型和专家经验。
有了大量状态监控后,很多短时预测变得很简单,但这并不能取代机理模型或结构方程的作用。机理模型在仅知道状态变量初始值和输入的情形下,就可能实现很长时间段内的外推。而根据短时拟合出来的统计模型通常做不到这一点。
2.统计模型与机理模型的融合
在不同场景下,机理模型对物理过程描述的精度不同,因而对其他模型的需求也不同,在不同工业场景下,数据与模型的可信度如图1-4所示。微观机理模型通常无法直接用到中观决策,例如,腐蚀电化学模型无法直接用到地下管道的季度预防性维修计划。很多机理模型在环境(如充分光滑、没有阻力)、模型(如集中参数、刚体、模型参数可以相对精准获得)、动力学形态(如不存在湍流)、初始状态(可测且测量成本可接受)等方面都有一定的前提假设或合理简化,在实际过程中需要用数据来检验其合理性,或与分析模型融合,进一步提高模型的适用性。
图1-4 不同工业场景下数据与模型的可信度
分析模型与机理模型融合有如下4种范式。
(1)分析模型为机理模型做模型校准,提供参数的点估计或分布估计,例如,Kalman滤波。
(2)分析模型为机理模型做后期处理或补充。例如,利用统计方法对气象研究与预报模式(Weather Research and Forecasting Model,WRF)的结果进行修正;或者利用统计方法综合多个机理模型,以提高预测的稳定性。机理模型由于未建模因素、参数不精准造成精度低。机理模型的系统辨析需要有效激励输入,但实际的工业系统为了安全和寿命,会限制激励信号的形式。这造成机理模型与物理过程存在一定偏差。分析模型虽然是数据自适应,但在参数维度高时,对训练数据集要求过高,泛化能力差。通常做法是分析模型以拟合机理模型的残差[7]。
(3)机理模型的部分结果作为分析模型的特征。例如,在风机结冰预测中,计算出风机的理论功率、理论转速等,并将其作为统计分析模型的重要特征。更进一步,将机理模型作为深度学习模型结构的一部分。如果使用传统的深度学习,即使训练数据满足所有的物理规律,训练好的深度网络仍然可能违反物理规律限定,例如,惯性矩阵非正定,外插无约束。深度拉格朗日网络(Deep Lagrangian Networks,DeLaN)[8]和哈密尔顿神经网络(Hamiltonian Neural Networks,HNNs)将力学系统作为先验知识成为深度网络模型的一部分,保证了关键物理量的合法性,比传统的前馈神经网络训练速度更快,预测结果更物理,对新的径迹预测也更健壮。
(4)分析模型与机理模型做集成。例如,在空气质量预测中,WRF-CHEM、CMAQ等机理模型可及时捕获空气质量的全局动态演化过程,而统计模型可对空气质量的局部稳态周期模式有较高精度的刻画。模型集成可有效融合两类模型各自的优势。
除严格意义上的融合外,对计算量大的机理模型,分析模型还可以替代机理模型。例如,物理神经网络(Physics-informed Neural Networks,PINN)[9]用于替代复杂的有限元计算,在训练时,将微分方程或偏微分方程作为深度学习模型损失函数的一部分。物理神经网络已经被广泛用于解决方程求解、参数反演、模型发现、控制与优化等问题。对基于复杂的动力学仿真的优化,强化学习可以用来学习最佳控制策略,强化学习也可以用于求解大规模组合优化问题[10]。
3.统计模型与专家规则的融合
在很多设备异常预警等工业数据分析中,缺乏足够的标记样本。此时除无监督学习(包括异常样本的相似度匹配)方式外,可采用专家规则与统计模型融合的方式。
专家规则通常不够完备,专家规则中很多参数和阈值通常不够精准,大数据平台可以为专家规则提供一个迭代式验证平台,数据分析师将当前版本的专家规则形式化,在大量历史数据运行,领域专家对关键结果(例如,预测为故障状态)进行研究,完善专家规则逻辑,通过这样多次迭代运行,通常可以获得一个相对可靠的专家规则。另外,也可以采用主动学习(Active Learning)[11]策略,统计学习模型可以挑选一些易混淆的样本,让领域专家进行标记。
4.统计模型与仿真模型的融合
仿真模型通常用于做模拟分析(What-if Analysis)、设计验证与预案设计。按照时空尺度,仿真模型可以分为4种类型:① 系统层级的仿真,包括机械、电子、电力、液压、热力学、控制系统等,典型的语言包括Modelica、MATLAB Simulink/SimScape等。注意,这里的“系统层级”是个相对的概念,覆盖了元件级、组件级、部件级、套件级及机组级等不同工业系统级别。② 连续介质理论的计算机辅助工程(Computer Aided Engineering,CAE)模拟,包括有限元法(Finite Element Method,FEM)、计算机流体动力学(Computational Fluid Dynamics,CFD)、电磁仿真及多物理场耦合仿真等。③ 非连续介质理论或介观尺度的模拟方法,涉及微观组织的演变及缺陷、断裂和损伤等各类问题,主要采用第一性原理、分子动力学、蒙特卡洛、相场、近场动力学及元胞自动机等技术。另外,如果把生产经营活动的仿真也纳入进来,可以将其作为第四类,即④ 离散事件仿真,主要仿真活动过程等离散事件下的系统性能。第③类因为涉及微观尺度,通常缺乏大量测量数据的支撑,所以目前工业大数据和第①、②、④类仿真结合比较多。
如果仿真模型结果和实际运行状态相比有一定的可信度,仿真模型将有可能用于指导工业系统的运行控制与运维管理。此时,仿真模型与统计模型有多种结合方式。
(1)仿真作为统计模型的训练验证平台。在现实世界中,数据的场景覆盖度有限,故障样本数量更有限,这对统计学习模型训练通常是不够的。这时可以发挥仿真模型场景覆盖全面的优势,模拟在工业现场出现不了或极少出现的场景(如重大故障、极端工况)。仿真模型为统计模型生成训练数据,统计模型基于这些数据进行训练与验证,可以验证统计模型的技术可行性与性能,也可以用统计仿真训练一个基础模型,根据实际现场数据做迁移学习。反过来,可以通过强化学习,根据统计学习的结果调整仿真参数,让仿真更有针对性,如图1-5所示。
这里需要注意,统计模型的输入数据要素要保持与工业现场相同。仿真模型输出大量状态变量,但现实世界可测量只是其中一部分。统计模型学习的也不是整个系统机理生成式模型,而是解决某个具体问题(例如,故障诊断)的模型。
图1-5 仿真作为统计模型的训练平台
(2)机器学习作为仿真加速器。很多仿真模型计算时间长,不能支撑在线生产决策或控制。可以基于离线仿真结果库,利用统计学习的回归分析算法(如神经网络、随机森林等),训练得到一个回归预测模型。在线时利用回归模型进行预测计算,快速得到一个相对可信的估算值。深度学习在这方面也有不少研究,前面介绍的PINN、DeLaN、HNNs等模型明确将机理或守恒关系构建为深度学习模型的损失函数或模型结构,深度学习模型训练和仿真是两个独立的过程,需要大量额外存储。还有一种方式是深度学习模型训练伴随仿真计算,不需要额外存储中间结果数据,ModelingToolkit.jl、Modelica等系统仿真语言通常要求系统模型为微分代数方程(Differential-Algebraic Equation,DAE)形式,如果神经网络可以表达为DAE形式,那么可以实现训练与仿真的伴随执行,目前主要神经网络模型包括连续时间的回声状态网络(Continuous Time Echo State Networks,CTESN)[12]、隐性深度学习(Deep Implicit Layers)[13]等。回声状态网络使用大规模随机稀疏网络(存储池)作为信息处理媒介,将输入信号从低维输入空间映射到高维状态空间,在高维状态空间采用线性回归方法对网络的非随机连接权重进行训练。回声状态网络的优点是训练简单,可以作为递归神经网络的简化方法。而CTESN可以近似为DAE形式,与仿真软件引擎有良好的融合接口。脚注①将CTESN作为代理模型开发JuliaSim软件,训练后CTESN模型可以替代仿真模型做快速推演预测。目前的深度学习用多层显式(explicit)非线性结构y=f(x)来实现强大的拟合能力,但其本质仍是寻找复杂系统的不变点。因此,隐性深度学习尝试用隐性(implicit)联合函数分布g(x,y)=0来表达系统的不变关系,以期望用形式简洁、内存需求量小的模型实现复杂系统不变点的表达。主要有深度平衡模型(Deep Equilibrium Model,DEQ)、常微分方程(Ordinary Differential Equation,ODE)[14]、可微优化(Differentiable Optimization),一旦表达为DAE形式,就很容易结合Modelica等系统仿真引擎训练深度学习模型。
(3)机器学习最优控制策略。很多动力学问题的逆问题(根据当前状态和目标状态,求解最佳控制策略)比较复杂,很多时候不存在唯一解,直接求解难度大。基于仿真实验,利用强化学习等策略学习最佳控制策略。