样本不平衡下基于图卷积网络的化工过程故障诊断
doi: 10.11918/202407047
钱强1 , 马萍2 , 王妮妮1 , 张宏立2 , 王聪2 , 李新凯1
1. 新疆大学 电气工程学院,乌鲁木齐 830017
2. 新疆大学 智能科学与技术学院,乌鲁木齐 830017
基金项目: 新疆维吾尔自治区自然科学基金(2022D01C367,2023D01C187) ; “天山英才”培养计划(2023TSYCQNTJ0020,2023TSYCCX0037)
Graph convolutional network-based fault diagnosis of chemical process under sample imbalance
QIAN Qiang1 , MA Ping2 , WANG Nini1 , ZHANG Hongli2 , WANG Cong2 , LI Xinkai1
1. School of Electrical Engineering, Xinjiang University, Urumqi 830017 , China
2. School of Intelligence Science and Technology, Xinjiang University, Urumqi 830017 , China
摘要
为解决实际化工过程故障样本匮乏,现有故障诊断模型在数据分布不平衡下故障诊断准确率低的问题,提出一种基于代价敏感多感受野时空图注意力网络(cost sensitive multireceptive fields spatio-temporal graph attention network,CSMRFSTGAT)故障诊断模型。该模型通过最大信息系数(maximal information coefficient,CMI)加权计算,将化工过程采集的相关变量数据转换为拓扑图数据,利用图卷积网络(graph convolution network,GCN)的故障诊断模型设计出了多感受野图卷积模块(multireceptive fields graph convolutional module, MRFGCM)和时空图注意力模块(space-time graph attention module,STGAM),然后提出了混合边缘感知焦点损失函数(hybrid margin-aware focus loss,LHMF),用于对较难识别样本施加更多的惩罚。将所提模型应用于田纳西伊斯曼过程(Tennessee Eastman process,TEP)和三相流(three-phase flow,TPF)数据集中多个不平衡场景下评估其诊断性能。结果表明:所提模型在TPF数据集中的分类精确率和F1分数分别达到了91%和92%以上,同时在TEP数据集中的分类召回率和F1分数均突破了99%;相较于机器学习模型、深度学习模型以及图深度学习模型,所提模型能更加有效地识别故障。所提模型在处理数据不平衡问题上具有优异的泛化性能,能有效实现样本不平衡下化工过程故障诊断。
Abstract
To solve the problem of low accuracy of existing fault diagnosis models under imbalanced data distribution caused by insufficiency of fault samples in practical chemical process, a fault diagnosis model based on cost sensitive multireceptive fields spatio-temporal graph attention network (CSMRFSTGAT) is proposed. This model converts the corresponding variable data collected from chemical process into topological graph data through maximum information coefficient (CMI) weighted calculation. Using the fault diagnosis model of the graph convolutional network (GCN), multireceptive fields graph convolutional module (MRFGCM) and space-time graph attention module (STGAM) are designed. Then, a hybrid margin-aware focal loss function is proposed to impose more penalties on samples which are difficult to recognize. The proposed model is applied to evaluate its diagnostic performance in multiple imbalanced scenarios of the Tennessee Eastman process (TEP) and the three-phase flow (TPF) dataset. The results show that the proposed model achieves the classification precision and F1 score of more than 91% and 92% in the TPF dataset, and meanwhile the classification recall rate and F1 score in the TEP dataset both break through 99%, respectively; It can recognize faults more efficiently compared with the machine learning model, deep learning model and graph deep learning model. The proposed model has excellent generalization performance in dealing with the data imbalance problem, and can effectively realize chemical process fault diagnosis under sample imbalance.
随着中国化工技术的高速发展,生产规模日趋大型化和复杂化,对化工过程的安全稳定运行提出了更高的要求。在现代化工厂中,各种设备和工艺流程相互依赖、紧密联结,任何一个环节的故障均可能导致生产效率下降,引发严重的安全事故和环境污染,甚至导致人员伤亡。为了有效应对这些挑战,化工过程的故障诊断研究显得尤为重要[1]。由于智能制造和工业4.0概念的引入,化工过程中的数据采集量呈指数级增长,为基于深度学习的化工过程故障诊断方法提供了坚实的基础。
数据大爆发时代下,深度学习的方法被应用于故障诊断领域并取得了非常丰富的成果[2]。基于自动编码器(autoencoder,AE)、深度置信网络(deep belief network,DBN)、卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network,RNN)等深度学习方法在化工过程故障诊断中也得到了广泛应用。Wu等[3]将原始过程数据转换成二维的特征图,然后设计一种包含卷积层、池化层、全连接层的深度卷积神经网络模型,实现了化工过程故障诊断;Liu等[4]提出了一种融合多尺度残差卷积网络与长短时记忆网络的化工过程故障诊断方法,该方法通过前者提取过程数据的多尺度高维非线性空间特征,后者捕捉时序动态特征,实现时空特征的联合提取;He等[5]利用过程机制将最相关的变量分配到子块中,然后利用多块时域卷积网络和一维卷积神经网络(one-dimensional convolutional neural network,1DCNN)提取各子块变量的交叉相关性和时间相关性特征并将其用于化工过程故障诊断中。现有的深度学习方法在处理化工过程故障诊断问题时,基于变量时间常规序列或图像数据进行特征提取,尚未考虑各变量相互作用等关键信息特征[6]
图深度学习技术通过将深度学习方法与图信号处理相结合,在图结构数据上进行学习和推理,能够捕捉复杂的节点关系和拓扑信息。因此,图深度学习技术已逐渐应用于工业过程故障诊断领域。Zhang等[7]利用变量之间的欧几里得空间距离关系将工业过程数据构建成K-近邻图,然后利用剪枝图卷积网络进行图数据的特征学习,进而从化工过程数据中提取故障特征信息以实现故障诊断;Wu等[8]针对化工过程中的过程机制,将化工过程数据转换为固定拓扑图信号,然后将图卷积网络(graph convolution network,GCN)用于化工过程故障诊断,取得了良好的效果。以上方法验证了图深度学习技术在化工过程故障诊断中的有效性。当前,基于图深度学习的化工过程故障诊断研究仍面临重要挑战,其中首要解决的关键问题是如何构建能够精确表征多重故障信息的图信号结构。
Xu等[9]利用皮尔逊相关系数将时间序列转换为具有节点和边的图结构,在GCN的基础上,设计出一个具有抗噪能力的切比雪夫收缩图卷积网络来提取图结构的特征信息,在化工过程数据集上实现了精确诊断;Wu等[10]结合化工过程拓扑知识构建拓扑图信号,提出了多通道动态图卷积网络,该网络从图数据中提取来自不同层面的故障动态信息,进一步增强了模型的故障诊断能力。上述常规图深度学习模型往往考虑提取图数据的空间特征,忽略了图数据上节点的时间特征。同时,在实际化工过程中面临故障样本不平衡的情况,深度学习模型难以有效挖掘少数类样本的故障特征,从而造成诊断精度下降[11]
近年来,研究人员主要从数据采样和分类算法两个层面解决不平衡分类问题。数据采样层面的方法主要通过对数据的过采样与欠采样来改变训练集的样本分布,降低不平衡程度,从而提高模型的分类能力。Peng等[12]提出利用平衡生成对抗网络生成具有区分度的故障样本,利用主动学习选择信息量最大的样本,实现样本扩充以实现样本不平衡故障诊断;骆耀谱等[13]提出利用条件卷积生成对抗网络扩充小样本不平衡数据,利用ResNet34深度网络进行一维振动信号的小样本不平衡故障诊断和分类。然而,上述方法会改变原始数据的分布,容易增加训练时间及丢失重要样本的信息,从而产生过拟合现象。分类算法层面主要利用集成学习、提升学习算法来提升模型对不平衡数据分类效果,通过对分类器的组合和算法的改进实现不平衡数据集的重新分类以提高对少数类样本的诊断率。潘海洋等[14]提出利用双加权不平衡矩阵分类器调节样本权重和分配核范数的奇异值权重,从而提高了机械故障诊断在样本不平衡情景下的精度与泛用性。然而,此类方法需预先定义一个成本矩阵,但精确设置该矩阵却很难。如何提升样本不平衡条件下的故障诊断性能,成为一个迫切需要解决且具有挑战性的问题。
针对上述问题,本文提出一种代价敏感多感受野时空图注意力网络(cost sensitive multireceptive fields spatio-temporal graph attention network,CSMRFSTGAT)故障诊断模型。首先,为了有效表征变量之间的关系,从节点与节点之间关系角度出发,提出一种加权最大信息图信号。该信号引入最大信息系数(maximal information coefficient,CMI)表示变量之间的相关性,利用CMI将多变量时间序列转换成加权拓扑图信号。其次,通过改进GCN构建多感受野图卷积模块(multireceptive fields graph convolutional module,MRFGCM)在不同尺度聚合邻居节点的特征信息,同时设计时空图注意力模块(space-time graph attention module,STGAM)以捕捉图结构中的局部特征和全局关系。最后,提出混合边缘感知焦点损失函数(hybrid margin-aware focus loss,LHMF),从样本和类两个角度实现对少样本的关注,从而提升数据不平衡下整体分类性能。选取两个不平衡分布情况的数据集进行系统性实验以验证所提模型的有效性。
1 加权最大信息图信号构建
1.1 互信息
互信息(mutual information,IM[15]是评价两个变量相关性的指标,两个变量之间的关联性越大,则IM值越大。设变量A={ai}(i=1,2,···,na),变量B={bj}(j=1,2,···,mb),其中namb为变量AB中元素的个数。则变量ABIM计算式为
(1)
式中:pab)为变量的联合概率,papb分别为变量ab的边缘概率密度。
将变量A的值域等分xa份,B的值域等分yb份。变量AB之间CMI的计算式为
CMI=maxxa×yb<J IMlog2minxa,yb
(2)
式中J为网格上限。
1.2 基于加权最大信息图信号构建
图是一种常见的数据结构,由节点和边构成。加权图是在图的连边上赋予权重,利用权重表达距离、成本等度量信息。假设某个工业过程测量数据中包含n个变量,即S1~Sn,将每个变量视为图中的节点,则1个图数据有n个节点。测量数据中的所有两两变量组合,计算其间的CMI,并将该系数作为节点之间边的权重。然后,通过引入阈值来控制图数据结构的复杂性。当节点之间的CMI值超过该阈值时,则在这两个节点之间建立连边;当CMI值低于阈值时,则不在两个节点之间建立连边。图信号构建过程如图1所示。
1加权最大信息图信号构建过程
Fig.1Weighted maximum information graph signal construction process
2 代价敏感多感受野时空图注意力网络
2.1 多感受野图卷积模块
GCN基于CNN思想,将卷积运算扩展至图结构中。GCN主要用于学习图数据中节点的图数据任务,如点分类、图分类、链接预测等[16]。GCN在谱域中表达式为
GCN=GC(X,H)=U×UT×HUT
(3)
式中:GCN为图卷积网络输出特征,GC(·)为图卷积操作,X为输入图信号,H为卷积核,U为特征向量矩阵,⊙为哈德玛积。
Defferrard等[17]提出利用切比雪夫多项式代替谱域的卷积核,则式(3)变为
(4)
L~=2Lλmax-IN
(5)
式中:K为切比雪夫多项式的阶数,θk为切比雪夫多项式系数,L为拉普拉斯矩阵,TkL~为以L为基本形式的切比雪夫多项式,IN为单位矩阵,λmax为对L进行特征分解的最大特征值。
在切比雪夫图卷积网络的基础上,令λmax=2,K=2,θ0=-θ1=1,式(4)可进一步变为
GCN=GC(X,H)=IN+D-12×Ad×D-12×X
(6)
式中:Ad为邻接矩阵,D为度矩阵。
将式(6)中IN+D-12×Ad×D-12归一化为D~-12×A~×D~-12,其中D^A^分别为归一化后的度矩阵和邻接矩阵。令A^=D~-12×A~×D~-12, GCN表达式简化为
Hl=σA^×H(l-1)×Wl
(7)
式中:HlHl-1分别为GCN第l层和第l-1层输出, Wl为GCN中的权重矩阵,σ(·)为激活函数。
目前,大多数GCN都是在未加权的图上构建的,并假设所有邻居节点的重要性相同,这与实际情况不完全符合。此外,GCN的感受野是固定的,这限制了GCN在特征表示方面的有效性。谱域中的图滤波器可以用K阶切比雪夫多项式表示,即拉普拉斯矩阵亦为K阶,参数K即为感受野大小。当频域滤波器为K阶多项式时,等价于K-hop邻域滤波[18]。然而,切比雪夫多项式的阶数是固定的,这意味着切比雪夫图卷积网络模块的感受野也是固定的,导致传统的图卷积层无法学习多域信息[19]。因此,为了聚合来自不同感受野的信息,本文设计了一个MRFGCM。其核心思想在于聚合来自多个不同邻域的信息,并将特征融合为更强大的特征表示。图数据中的节点定义为X~=x~1x~2x~n,对应的多感受野图卷积表达式为
(8)
式中:HM为经过多感受野特征提取后的节点特征,[·]为串联运算符,o为感受野的数量,K1K2Ko为所提多感受野图卷积表达式中不同感受野的大小,k1k2kok阶多项式的顺序, θk1'θk2'θko'为不同感受野多项式的切比雪夫系数。
在实践中,邻接矩阵和图节点特征通常用作GCN的输入。因此,式(8)可简化为
HM=AK1-1×X~×W0,AK2-1×X~×W1,,AKo-1×X~×Wo
(9)
式中:W0W1Wo为每个感受野图卷积网络的权重矩阵,AK1-1AK2-1AKo-1为每个感受野图卷积网络的邻接矩阵。
如前所述,感受野与K的取值有关。本文实际应用的MRFGCM包含3个不同感受野的切比雪夫图卷积网络层,这些切比雪夫图卷积网络层分别提取了不同阶邻居节点中的重要信息。当K1=1时,聚合的节点特征来自节点本身,提取的特征为 [t1t2,···,tn]T;当K2=2时,聚合特征是1阶邻居节点的特征,提取的特征为 [m1m2,···,mn]T;当K3=3时,聚合的节点特征来自2阶邻居节点的特征,提取的特征为 [r1r2,···,rn]T。MRFGCM结构如图2所示。
2MRFGCM结构
Fig.2MRFGCM structure
2.2 时空图注意力模块
图注意力网络(graph attention network,GAT)被视为是对GCN的一种改进,其核心原理是将注意力机制引入图结构数据处理中[20]。在GAT中,注意力机制决定了邻居节点对当前节点的贡献程度,从而使得模型能够动态地调整邻居节点的影响力。图注意力系数和节点更新表达式分别为:
(10)
(11)
式中:αij为图注意力系数,αZij为不同注意力头的注意力系数,aT为转置后可学习的参数向量,‖表示拼接操作,Ni为中心节点i的邻居集合,XiXj分别为节点ij的特征,Zii节点经过GAT聚合后的特征,Z为注意力头数,Lr(·)为LeakyReLU激活函数,W为GAT中的权重矩阵,WZ为不同注意力头中的权重矩阵。
图3为GAT与STGAM结构。其中,图3(a)为GAT(Z=3)示意图,Head表示多头注意力机制中的一个独立注意力头,Softmax表示归一化操作。每个独立注意力头会计算不同的注意力权重,帮助模型从多角度捕捉节点与其邻居的关系。注意力系数主要用于聚合邻居节点的权重,以便更有效地建模图结构和挖掘图特征。尽管GAT在捕捉图结构数据的空间依赖性方面表现优异,但难以提取图数据上节点的时间特征。为了克服这一不足,本文引入了时间卷积网络(temporal convolutional network,TCN),其能够通过膨胀因果卷积有效捕捉长时间跨度的依赖性。TCN利用卷积操作对时间序列进行处理,确保时间的前后顺序一致性,并通过扩展卷积核覆盖更长的时间范围,从而增强对时间依赖特征的建模能力。通过结合GAT和TCN,STGAM能够同时捕捉数据中的空间和时间特征,从而提高模型在处理时空数据时的整体性能。STGAM结构如图3(b)所示。
3GAT与STGAM结构
Fig.3GAT and STGAM structure
2.3 混合边缘感知焦点损失函数
近年来,焦点损失函数(focal loss,LF)作为一种有效的方法被广泛应用于处理不平衡数据分类问题。LF可以使模型更加聚焦于那些难以分类的样本,提升模型对于困难样本的学习效果[21]。假设不平衡数据有C个类别,每个样本的标签以C维的独热编码向量表示其所属类别,而模型的输出则通常为一个C维向量,描述了对每个类别的预测概率。对于第q个样本和第s个类别,LF的表达式为
(12)
式中:nf为样本总数量,Yqs为第q个样本的真实标签,Yqs为第q个样本预测为s的概率,αfLF的平衡参数,γfLF的聚焦参数。
LF未能从数据类别间分类边界考虑,导致在不平衡数据集上效果不佳。而标签分布感知边际损失函数(label distribution aware margin loss,LLDAM)可解决类别不平衡问题,通过将边际距离与标签分布信息结合,使模型能够更加专注于那些在标签分布上边际距离较大的样本,从而提高模型对类别不平衡的适应能力[22]。设xD为一个特定的样本,yDxD的相应标签,f(·)为模型,zyD=fxDyD为模型对该特定样本的输出,样本所属类别边际值 ΔyD=CDnyD1/4,其中CD为常数,nyDyD类别中的样本数。则LLDAM表达式为
(13)
重加权(delay re-weight,DRW)是一种用于处理类不平衡数据集的训练技术。重加权标签分布感知边缘损失(delay re-weight and label distribution aware margin loss,LDRW-LDAM)利用LLDAM训练前T个epoch,然后对学习率进行退火,最后在第T个训练轮数后下调学习率并对损失函数赋予权重,部署具有较小学习率的重新加权LLDAM
综合考虑难以分类的样本和类不平衡数据的学习问题,结合LFLDRW-LDAM优势,本文提出融合LFLDRW-LDAMLHMFLHMF利用LF机制重视模型难以分类的样本;此外,其充分发挥了 LDRW-LDAM的作用,即考虑数据集的类别分布,使得少数类样本更容易被正确分类。双重机制的设计使得LHMF能够从样本级别和类别级别两个维度出发,更全面地提升对于少数类样本的关注。LHMF的表达式为
LHMF=γLDRW-LDAM+βLF
(14)
式中γβ为可调整的超参数。
2.4 CSMRFSTGAT模型结构
CSMRFSTGAT模型由STGAM、MRFGCM、全连接层、激活函数以及LHMF等组成。模型中的STGAM主要用于提取节点中的非欧几里得空间特征,引入注意力机制有效提取不同邻居节点的特征,并结合TCN提取图数据中每个节点上的时间特征;MRFGCM用于从具有不同感受野的邻居节点中提取节点特征;LHMF用于增强对少数类样本的关注。总体而言,CSMRFSTGAT结构的设计旨在提高其对工业过程中复杂数据的处理能力,具体参数见表1
1CSMRFSTGAT参数
Tab.1CSMRFSTGAT parameters
3 基于CSMRFSTGAT的化工过程故障诊断流程
利用CSMRFSTGAT进行样本不平衡下化工过程故障诊断的框架如图4所示,主要包括以下几个部分。
1)采集原始数据,然后对原始数据进行归一化,以消除不同变量之间量纲的差异,防止某些变量在训练过程中因取值范围较大而主导模型。采用滑窗技术将时间序列数据分割成固定长度的窗口,以捕捉短期动态特征。
2)计算处理后的数据中变量之间的CMI,以衡量变量之间的相关性。基于计算得到的CMI,构建图信号。其中每个节点代表一个变量,边的权重为对应的CMI,得到加权最大信息图信号。
3)得到加权最大信息图信号数据集,并将数据集按不同不平衡比例划分为训练集和测试集。
4)采用训练集对CSMRFSTGAT模型进行训练,采用Adam优化算法,训练过程中需监控训练损失,以防止过拟合。
5)将测试集输入诊断模型中并输出诊断结果,采用召回率(R)、精确率(P)、F1分数(F1-S)性能指标对模型性能进行综合评估。上述指标计算式分别为:
R=TPTP+FN
(15)
P=TPFP+TN
(16)
F1-S=2×P×RP+R
(17)
式中:TP为实例是正类并被预测为正类的个数,FN为实例是正类被预测为负类的个数,FP为实例是负类被预测为正类的个数,TN为实例是负类被预测为负类的个数。RPF1-S数值越大,模型性能越优。
4基于CSMRFSTGAT工业过程故障诊断框架
Fig.4Framework diagram for industrial process fault diagnosis based on CSMRFSTGAT
4 实验结果与分析
4.1 三相流数据集实验分析
4.1.1 数据集介绍及预处理
三相流数据集(three-phase flow,TPF)仿真系统是由Cranfield大学设计开发的,旨在为加压系统提供受控和测量的油、水和空气流量。整个系统的数据以1 Hz的采样率进行捕获,并始终在0.1 MPa的环境下运行[23]。TPF过程数据包含24个过程变量,模拟了6种典型故障及系统正常运行的状态,具体描述见表2。对归一化后的TPF数据进行滑窗处理,并计算滑窗数据中两两变量之间的CMI,以此构建图信号。
本实验在PyTorch框架上实现,硬件配置包括CPU(Intel i9-12900H @2.30 GHz)、GPU(NVIDIA GeForce RTX 3070Ti)以及运行内存(16 GB)。模型训练的超参数设置如下:批量大小为32,学习率为3×10-4,epoch为40。为验证所提模型在处理不平衡数据集时的分类效果,实验将训练集中的7类数据分别按照平衡分布及两种极端不平衡分布进行划分,具体分布情况见表3。实验中训练集选取正常样本数为160,其他故障样本数分别依据表3中不同比例进行选取。其中,正常样本与故障1样本数比值高达10∶1。
2TPF故障类型描述
Tab.2Description of TPF fault types
3TPF平衡与不平衡数据集具体分布情况
Tab.3Specific data distribution of TPF-balanced and imbalanced datasets
4.1.2 LHMF有效性分析
为了验证所提LHMF的有效性,将交叉熵损失函数(cross-entropy loss,LCE)、LF、均衡焦点损失函数(equalized focal loss,LEF)、LLDAMLDRW-LDAM分别与剥离LHMF后的CSMRFSTGAT相结合,然后与CSMRFSTGAT进行对比,并应用于表3所示的3种不同数据分布情况下的TPF数据诊断中。每组实验运行10次,分别计算PF1-S的平均值,实验结果见表4。由表4可知:在平衡比例数据分布情况下,各损失函数结合所提模型的PF1-S均达到了97.42%和97.53%及以上,说明在各样本数量均衡情况下,以上损失函数仍具备良好的分类性能。在不平衡比例1情况下,LHMFPF1-S分别为94.34%和94.66%,高于LCELFLLDAM等损失函数,说明LHMF能够更有效地处理不平衡数据,显著提升了模型对少数类别的分类准确率。在不平衡比例2情况下,尽管LHMFPF1-S相比不平衡比例1的情况有所下降,但仍保持在所有损失函数中的最高水平。LCE在正常情况下表现优异,但在不平衡比例情况下,其性能显著下降,这是由于LCE未考虑类别之间的不平衡,导致对少数类样本的预测性能下降。以上实验结果说明,在不同程度的数据不平衡情况下,LHMF均能取得最好的诊断效果,证明了CSMRFSTGAT在数据不平衡情况下良好的泛化性和优越性。
4各损失函数在TPF平衡与不平衡数据集上的分类效果
Tab.4Classification performance of various loss functions on TPF-balanced and imbalanced datasets
4.1.3 模型诊断性能评估
为验证所提模型在故障诊断中的分类能力,将所提模型与机器学习模型、深度学习模型和图深度学习模型进行对比。机器学习模型为基于主成分分析的支持向量机(PCA-SVM),深度学习模型包括1DCNN、CNN、TCN和卷积神经网络-长短时记忆网络(CNN-LSTM),谱域图深度学习模型有GCN和MRFGCN,空域图深度学习模型为GAT。在3种不同数据分布情况下,分别运行上述模型10次,并分别计算其PF1-S的平均值,结果见表5
5各模型在TPF平衡与不平衡数据集上的分类效果
Tab.5Classification performance of various models on TPF-balanced and imbalanced datasets
表5可知:在数据平衡比例分布情况下,CSMRFSTGAT的PF1-S分别达到98.59%和98.52%,与GAT、MRFGCN、TCN、GCN相比,分别提高了1.69%~13.69%和2.23%~14.20%,表明同时提取化工过程数据中的复杂时空特征能够提高模型的性能,CSMRFSTGAT能更加关注少数类样本信息,有效克服了数据不平衡对故障诊断性能的影响。在不平衡比例1情况下,CSMRFSTGAT的F1-SP明显优于对比模型。在不平衡比例2情况下,CSMRFSTGAT的F1-SP分别为92.91%和91.50%,所有对比模型中表现最优。在两种不平衡比例数据分布情况下,图深度学习模型受不平衡数据分布的影响也明显小于传统深度学习模型,这主要得益于图深度学习模型能够有效提取非欧几里得空间特征。综上所述,CSMRFSTGAT在进行故障分类时表现出卓越的分类性能,不仅在平衡比例数据分布情况下表现优异,而且在面对高度不平衡的数据分布时依然能够保持较高的PF1-S
上述分析表明,CSMRFSTGAT不仅可以通过成本敏感的方法挖掘不平衡信息,还可以通过图神经网络从多传感器数据中挖掘结构信息,从而促进不平衡数据分布故障诊断。图5为CSMRFSTGAT在数据平衡情况下的混淆矩阵和分类器输出特征的t分布随机近邻嵌入(t-distributed stochastic neighbor embedding,t-SNE)特征可视化结果。由图5(a)可知,尽管CSMRFSTGAT对故障6的故障准确率为89.00%,但对绝大多数故障的准确率均达到了97.00%以上,验证了其在故障识别方面的优越性能。图5(b)中的每个点代表一个图信号样本,不同故障的图信号样本采用不同的形状加以区分。经过CSMRFSTGAT模型特征提取后,仅有个别数据与所属类别的样本不同,大部分故障特征已得到有效分离,分类效果显著。
5CSMRFSTGAT输出混淆矩阵以及t-SNE图
Fig.5CSMRFSTGAT output confusion matrix and t-SNE plot
4.2 田纳西伊斯曼过程数据集实验分析
4.2.1 数据集介绍及预处理
田纳西伊斯曼过程(Tennessee Eastman process,TEP)是美国Tennessee Eastman化学公司提出的一个实际化工过程的仿真数据集,被广泛用于化工过程故障诊断的模拟研究验证[24]。TEP主要分为反应器、冷凝器、压缩机、分离器和汽提塔5个单元,包括A~H共8种主要成分,有41个测量变量和11个控制变量,预设21类故障。对于多分类不平衡故障诊断,随机选择正常数据、故障4、故障5和故障14进行分析,故障描述见表6
6TEP故障类型描述
Tab.6Description of TEP fault types
实验模型、环境配置等与4.1节一致。对归一化处理后的数据进行滑窗处理,然后将处理得到的滑窗数据构成图数据。数据集中的4类数据按平衡与两种极端不平衡数据分布,具体分布情况见表7。在训练集中选取正常样本数据100个,其他故障样本数分别依据表7中的比例进行选取。在不平衡比例1中,正常样本数与故障14样本数比值及在不平衡比例2中正常样本数与故障4样本数比值均高达10∶1。
7TEP平衡与不平衡数据集具体分布情况
Tab.7Specific data distribution of TEP-balanced and imbalanced datasets
4.2.2 LHMF的有效性分析
为了进一步验证损失函数对模型的影响,将4.1节中5种不同的损失函数与LHMF进行对比,结果见表8。由表8可知:在数据平衡比例分布情况下,各种损失函数均表现出良好的效果,LHMFRF1-S均达到了100%。当数据处于不平衡情况下时,LFLEFRF1-S均下降。在两种不平衡比例数据分布情况下,基于LCE的模型RF1-S分别为94.34%、94.73%和95.76%、96.16%,表现最差。此外,LDRW-LDAM通过关注类边际距离结合延迟加权的方式,在面对两种不平衡数据分布情况下,模型的RF1-S分别为96.17%、99.41%和97.36%、99.31%,表明其能有效地关注少数类样本。LHMF通过综合考虑样本与类分布,加强对少数类样本的关注,在不平衡比例1数据分布情况下的RF1-S分别为99.73%和99.28%;在不平衡比例2数据分布情况下,模型的诊断效果几乎不受任何影响。
8各损失函数在TEP平衡与不平衡数据集上的分类效果
Tab.8Classification performance of various loss functions on TEP-balanced and imbalanced datasets
4.2.3 模型诊断性能评估
为了验证所提模型在TEP数据集上的诊断性能,将其与4.1节中的对比模型进行对比分析。对比模型与4.1实验中所采用的模型参数只在模型的输入层和输出全连接层略有不同,其他均保持不变。在3种不同数据分布情况下,模型运行10次,计算RF1-S的平均值,结果见表9
表9可知:在平衡比例数据分布情况下,CSMRFSTGAT的F1-SR分别比MRFGCN、GAT、TCN、GCN提升了0%~3.20%和0%~4.76%,这主要得益于所提模型能够同时提取数据的多感受野时空特征。在平衡比例和不平衡比例2数据分布情况下,CSMRFSTGAT的RF1-S达到100%,对所有故障类型数据均分类成功。在不平衡比例1情况下,RF1-S分别为99.73%和99.28%,说明诊断效果显著。在平衡比例数据分布情况中,GAT模型利用注意力机制捕捉重要节点特征,RF1-S同样达到了100%。在两种数据不平衡比例分布情况下,相较于传统深度学习模型,普通图深度学习模型表现出了显著优势,其F1-SR分别提高18.17%~59.31%、17.88%~59.62%和15.43%~50.91%、15.5%~54.7%。面对不平衡样本时,深度学习模型诊断能力显著降低,而图深度学习模型因强大的时空特征提取能力,仍保持良好的诊断能力。
图6为CSMRFSTGAT模型的输出混淆矩阵与特征可视化结果。由图6(a)可以看出,CSMRFSTGAT模型对所有故障均分类正确,具有非常好的故障识别效果。由图6(b)可知,经过CSMRFSTGAT模型特征提取和分类后,所有故障特征均已有效分离,进一步证明了其在故障分类任务中的优越性能。
9各模型在TEP平衡与不平衡数据集上的分类效果
Tab.9Classification performance of various models on TEP-balanced and imbalanced datasets
6CSMRFSTGAT输出混淆矩阵以及t-SNE图
Fig.6CSMRFSTGAT output confusion matrix and t-SNE plot
5 结论
本文提出了样本不平衡下基于CSMRFSTGAT的化工过程故障诊断模型,通过两个数据集验证了所提模型的有效性。主要结论如下:
1)通过挖掘化工过程多传感器信号之间的互信息构建加权最大信息图信号,有效地表征了变量之间的内在关系,并结合图深度学习削弱了数据分布不平衡对故障诊断的影响。
2)提出了LHMF,该损失函数利用LF机制重视难以分类的样本,利用LLDAM解决类别不平衡问题。在处理样本不平衡数据集时,相较于其他损失函数,该损失函数表现出较优的性能。
3)所提出的CSMRFSTGAT模型,通过MRFGCM和STGAM提取了节点不同尺度的特征信息,有效捕捉了图信号中节点上的时间演变。所提模型在不平衡比例数据集中的F1-S均在92.91%及以上,R均在99.73%及以上,P在91.50%及以上。对比实验结果表明,在样本不平衡下的化工过程故障诊断中,相较于传统深度学习和图深度学习模型,所提模型具有更高的准确性和泛化性。
1加权最大信息图信号构建过程
Fig.1Weighted maximum information graph signal construction process
2MRFGCM结构
Fig.2MRFGCM structure
3GAT与STGAM结构
Fig.3GAT and STGAM structure
4基于CSMRFSTGAT工业过程故障诊断框架
Fig.4Framework diagram for industrial process fault diagnosis based on CSMRFSTGAT
5CSMRFSTGAT输出混淆矩阵以及t-SNE图
Fig.5CSMRFSTGAT output confusion matrix and t-SNE plot
6CSMRFSTGAT输出混淆矩阵以及t-SNE图
Fig.6CSMRFSTGAT output confusion matrix and t-SNE plot
1CSMRFSTGAT参数
Tab.1CSMRFSTGAT parameters
2TPF故障类型描述
Tab.2Description of TPF fault types
3TPF平衡与不平衡数据集具体分布情况
Tab.3Specific data distribution of TPF-balanced and imbalanced datasets
4各损失函数在TPF平衡与不平衡数据集上的分类效果
Tab.4Classification performance of various loss functions on TPF-balanced and imbalanced datasets
5各模型在TPF平衡与不平衡数据集上的分类效果
Tab.5Classification performance of various models on TPF-balanced and imbalanced datasets
6TEP故障类型描述
Tab.6Description of TEP fault types
7TEP平衡与不平衡数据集具体分布情况
Tab.7Specific data distribution of TEP-balanced and imbalanced datasets
8各损失函数在TEP平衡与不平衡数据集上的分类效果
Tab.8Classification performance of various loss functions on TEP-balanced and imbalanced datasets
9各模型在TEP平衡与不平衡数据集上的分类效果
Tab.9Classification performance of various models on TEP-balanced and imbalanced datasets
李国友, 张新魁, 才士文, 等. 基于改进KFDA与DE优化SOM的故障诊断模型及其化工过程诊断[J]. 化工进展,2022,41(4):1793.LI Guoyou, ZHANG Xinkui, CAI Shiwen,et al. Study on fault diagnosis model and chemical process fault diagnosis based on improved KFDA and DE optimized SOM[J]. Chemical Industry and Engineering Progress,2022,41(4):1793. DOI:10.16085/j.issn.1000-6613.2021-0821
魏文军, 张轩铭, 杨立本. 基于模糊聚类和改进Densenet网络的小样本轴承故障诊断[J]. 哈尔滨工业大学学报,2024,56(3):154.WEI Wenjun, ZHANG Xuanming, YANG Liben. Fault diagnosis of small sample bearings based on fuzzy clustering and improved Densenet network[J]. Journal of Harbin Institute of Technology,2024,56(3):154. DOI:10.11918/202206075
WU Hao, ZHAO Jinsong. Deep convolutional neural network model based chemical process fault diagnosis[J]. Computers and Chemical Engineering,2018,115:185. DOI:10.1016/j.compchemeng.2018.04.009
LIU Kai, LU Ningyun, WU Feng,et al. Model fusion and multiscale feature learning for fault diagnosis of industrial processes[J]. IEEE Transactions on Cybernetics,2022,53(10):6465. DOI:10.1109/TCYB.2022.3176475
HE Yumin, SHI Hongbo, TAN Shuai,et al. Multiblock temporal convolution network-based temporal-correlated feature learning for fault diagnosis of multivariate processes[J]. Journal of the Taiwan Institute of Chemical Engineers,2021,122:78. DOI:10.1016/j.jtice.2021.04.062
陈红花, 岑健, 刘溪, 等. 深度学习在化学流程工业故障诊断的研究进展[J]. 计算机工程与应用,2022,58(13):48.CHEN Honghua, CEN Jian, LIU Xi,et al. Research progress of deep learning in fault diagnosis of chemical process industry[J]. Computer Engineering and Applications,2022,58(13):48. DOI:10.3778/j.issn.1002-8331.2111-0368
ZHANG Yue, YU Jianbo. Pruning graph convolutional network-based feature learning for fault diagnosis of industrial processes[J]. Journal of Process Control,2022,113:101. DOI:10.1016/j.jprocont.2022.03.010
WU Deyang, ZHAO Jinsong. Process topology convolutional network model for chemical process fault diagnosis[J]. Process Safety and Environmental Protection,2021,150:93. DOI:10.1016/j.psep.2021.03.052
XU Yuan, ZOU Xun, KE Wei,et al. A graph convolutional shrinkage network-based fault diagnosis method for industrial process[C]//Proceedings of 2023 IEEE 12th Data Driven Control and Learning Systems Conference. Xiangtan: IEEE,2023:1069. DOI:10.1109/DDCLS58216.2023.10165809
WU Ping, WANG Yixuan, GAO Jinfeng,et al. Multichannel dynamic graph convolutional network based fault diagnosis and its application in blast furnace ironmaking process[J]. IEEE Sensors Journal,2023,23(23):29293. DOI:10.1109/JSEN.2023.3325353
LYU Dingyang, XU Zhengjia, ZHANG Jinghui,et al. Imbalanced node classification with graph neural networks:a unified approach leveraging homophily and label information[J]. Applied Soft Computing,2023,149:110985. DOI:10.1016/j.asoc.2023.110985
PENG Peng, ZHANG Hanrong, WANG Xinyue,et al. Imbalanced chemical process fault diagnosis using balancing GAN with active sample selection[J]. IEEE Sensors Journal,2023,23(13):14826. DOI:10.1109/JSEN.2023.3270896
骆耀谱, 王衍学, 李孟. 基于CCGAN和ResNet34的滚动轴承故障诊断方法[J]. 机电工程,2023,40(6):852.LUO Yaopu, WANG Yanxue, LI Meng. Rolling bearing fault diagnosis method based on CCGAN and ResNet34[J]. Journal of Mechanical & Electrical Engineering,2023,40(6):852. DOI:10.3969/j.issn.1001-4551.2023.06.006
潘海洋, 徐海峰, 郑近德, 等. 基于双加权不平衡矩阵分类器的机械故障诊断方法[J]. 机械工程学报,2024,60(3):170.PAN Haiyang, XU Haifeng, ZHENG Jinde,et al. Mechanical fault diagnosis method based on twin weighted imbalanced matrix classifier[J]. Journal of Mechanical Engineering,2024,60(3):170. DOI:10.3901/JME.2024.03.170
JIANG Yalan, LI Chaoshun, YANG Zhixin,et al. Remaining useful life estimation combining two-step maximal information coefficient and temporal convolutional network with attention mechanism[J]. IEEE Access,2023,9:16323. DOI:10.1109/ACCESS.2021.3052305
LI Xiao, SUN Li, LING Mengjie,et al. A survey of graph neural network based recommendation in social networks[J]. Neurocomputing,2023,549:126441. DOI:10.1016/j.neucom.2023.126441
DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona: NIPS,2016:3844
SHUMAN D I, NARANG S K, FROSSARD P. The emerging field of signal processing on graphs:extending high-dimensional data analysis to networks and other irregular domains[J]. IEEE Signal Processing Magazine,2013,30(3):83. DOI:10.1109/MSP.2012.2235192
ABU-EL-HAIJA S, PEROZZI B, KAPOOR A,et al. Mixhop:higher-order graph convolutional architectures via sparsified neighborhood mixing[C]//Proceedings of the 36th International Conference on Machine Learning. Long Beach: IMLS,2019:32
陈柘, 刘嘉华, 赵斌, 等. 基于GCN和TCN的多因素城市路网出租车需求预测[J]. 控制与决策,2023,38(4):1031.CHEN Zhe, LIU Jiahua, ZHAO Bin,et al. Multi-factor taxi demand forecasting for urban road network based on GCN and TCN[J]. Control and Decision,2023,38(4):1031. DOI:10.13195/j.kzyjc.2021.0814
LIN T Y, GOYAL P, GIRSHICK R,et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):318. DOI:10.1109/TPAMI.2018.2858826
YANG Wei, HU Zhentao, ZHOU Lin,et al. Protein secondary structure prediction using a lightweight convolutional network and label distribution aware margin loss[J]. Knowledge-Based Systems,2022,237:107771. DOI:10.1016/j.knosys.2021.107771
RUIZ-CÁRCEL C, CAO Y, MBA D,et al. Statistical process monitoring of a multiphase flow facility[J]. Control Engineering Practice,2015,42:74. DOI:10.1016/j.conengprac.2015.04.012
MELO A, CÂMARA M M, CLAVIJO N,et al. Open benchmarks for assessment of process monitoring and fault diagnosis techniques:a review and critical analysis[J]. Computers and Chemical Engineering,2022,165:107964. DOI:10.1016/j.compchemeng.2022.107964