中国战略性新兴产业研究与发展:智慧工业
上QQ阅读APP看书,第一时间看更新

3.2.2 卷积神经网络数据特征提取

最早的卷积神经网络(CNN)LeNet-5由法国科学家YannLeCun于1989年提出,它在处理具有类似网格结构的数据领域十分擅长,如时间序列数据和图像数据。卷积是一种特殊的线性运算,通常来说,卷积神经网络中用到的卷积运算和工程领域和纯数学领域中的定义并不完全一致。卷积层和池化层一般会取若干个,采用卷积层和池化层交替设置,即一个卷积层连接一个池化层,池化层后再连接一个卷积层,依次类推。卷积神经网络的突破来自于2012年ImageNet挑战赛中Krizhevsky等提出的AlexNet, AlexNet的大获成功掀起了卷积神经网络的研究热潮。随后GoogLeNet、VGG、ResNet、NASNet、DenseNet等相继提出。卷积神经网络最重要的结构是卷积操作,这里的卷积与图像信号处理中的卷积稍有不同,多个卷积核构成的卷积层,实现同一输入特征图上的权值共享,每个卷积核检测输入信号所有位置上的特定特征。卷积操作实现了特征自适应提取过程。卷积计算公式为

式中,yl(i,j)为第l层的第j个被卷积区域的第i个卷积核进行卷积运算的卷积输出结果;为第l层的第i个卷积核;Xl(r)为第l层中第r个被卷积区域;为第l层的第i个卷积核的第j′个权值;Xl(j+j′)为第l层中第(j+j′)个被卷积的局部区域;W为卷积核的宽度。卷积神经网络计算原理如图3-6所示。

图3-6 卷积神经网络计算原理

卷积运算改进机器学习系统的三个重要思想包括:稀疏交互(Sparse Inter-actions);参数共享(Parameter Sharing);等变表示(Equivariant Representations)。通过稀疏交互(稀疏连接),可使卷积核的大小远小于输入数据的大小,从而使得模型的存储需求减小,提高了计算的统计效率。参数共享保证了只需要学习一个参数集合,而不是对于每一个位置都需要学习一个单独的参数集合。神经网络层具有对平移等变的性质来源于参数共享这一特殊形式。

卷积层之后是池化层,池化层主要是进行降采样操作,主要目的是减少神经网络的参数,常见的有最大值池化、平均值池化和加权平均池化等。最大值池化是将感知域中的最大值作为输出,两者的数学描述形式为

式中,al(i,t)为第l层第i帧中第t个神经元的激活值;w为池化区域的宽度;pl(i,j)为池化输出。池化计算原理如图3-7所示。

图3-7 池化计算原理

池化层从输入的数据中各自独立地降采样,图3-7a将输入数据尺寸池化为112×112×64,图3-7b是典型的最大池化(Max Pooling),步长为2的情况下,将输入从4×4池化为2×2卷积核。

在CNN结构中,经过多个卷积层和池化224×224×64层后,连接着一个或一个以上的全连接层。与多层感知机(MLP)类似,在全连接层中,每个神经元与其前一层的所有神经元连接。卷积层或者池化层中具有类别区分性的局部信息被全连接层整合。

以上介绍了CNN的主要组成部分和原理,在卷积计算中还存在着多种变换形式的卷积,主要有一维(1D)、二维(2D)、三维(3D)、转置、扩张(Atrous)、空间可分、深度可分、平展、分组、混洗分组卷积和逐点分组卷积等。

在应用领域,CNN已广泛应用于图像处理领域中,Krizhevsky等首次将CNN应用于LSVRC-12竞赛中,取得了惊人的分类结果(该网络结构也被称为AlexNet)。而随后在LSVRC-14竞赛中,Google的研究团队提出的GoogleLeNet获得了更高的准确率。在LSVRC-15的竞赛中,何凯明等提出的ResNet神经网络在图像分类任务中首次超越人类。在音频检索领域,Abdel-Hamid等人结合隐马尔可夫模型建立了CNN用于识别语音的模型,并在标准TIMIT语音数据库上进行试验,试验结果显示,该模型的错误率相对于具有相同隐含层数和权值的常规神经网络模型降低10%,表明CNN模型能够提升语音的识别准确率。

在机电设备监测与故障诊断领域,CNN同样具有广泛的应用前景。一般监测机械设备产生的信号主要是一维时域振动信号,通过时频分析手段可以将振动信号表示为二维时频信号。同时,由于卷积神经网络本身可以对一维时域数据进行处理,这有助于直接从原始数据中提取出有用的特征,从而避免人为特征可能带来的不足。西安交通大学陈雪峰团队提出的打乱时间序列卷积神经网络在电机故障诊断中取得了很好的诊断效果。在使用二维卷积神经网络来诊断齿轮箱故障时,小波分析将原始时域信号转换为二维信号,将该二维信号输入二维深度卷积神经网络中,同样取得了很好的效果。