摘要
为解决复杂工业场景中滚动轴承复合故障数据难以采集所导致模型识别故障困难的问题,提出基于反馈对比生成的零样本滚动轴承复合故障诊断模型。首先,采用连续小波变换将振动信号转换为时频图,更好地保留故障的时频信息。其次,引入注意力引导ConvNeXt特征提取模块,利用通道和空间注意力机制强化故障特征的表征,消除无关信息干扰,增强故障特征的辨识性。然后,结合对抗训练和属性反馈对齐网络,确保生成的伪故障特征能够准确反映其对应的故障属性信息,实现高质量的故障特征生成。同时引入对比学习模块,生成接近正样本但远离其他样本的故障特征,进一步提高特征生成器的性能和特征的辨别力。最后,通过计算伪故障特征与未知复合故障特征的相似度,将相似度最高的类别标签作为未知复合故障标签,实现对未知复合故障的诊断。结果表明:加入注意力机制的特征提取网络相比其他网络,诊断精度提升8.42%;相比仅使用WGAN-GP生成模块,诊断精度提升14.67%;与其他模型相比,文中所提模型在故障诊断准确率上显著提高28.67%,从而验证了所提模型的有效性与优越性,为机械设备的智能维护提供了一种全新的解决方案。
Abstract
To solve the problems of fault identification in models stemming from the difficulty of acquiring composite fault data in complex industrial environments, a novel zero-shot rolling-bearing composite fault diagnosis model based on contrastive feedback generation is proposed. Initially, continuous wavelet transform is employed to convert vibration signals into time-frequency images, thus preserving the temporal and spectral characteristics of faults more effectively. Subsequently, an attention-guided ConvNeXt feature extraction module is introduced, harnessing channel and spatial attention mechanisms to enhance fault feature representation, mitigate interference from extraneous information, and augment the distinctiveness of fault characteristics. Integrating adversarial training and attribute feedback alignment networks ensures that the generated pseudo-fault features accurately reflect their corresponding fault attribute information, achieving high-fidelity fault feature generation. A contrastive learning module is incorporated to produce fault features that are proximate to positive samples while maintaining distance from other samples, thereby further enhancing the performance of the feature generator and the discriminative power of the features. Finally, calculating the similarity between the pseudo-fault features and the unknown composite fault features, the category label with the highest similarity is assigned as the label for the unknown composite fault, thereby achieving its diagnosis. Experimental results demonstrate that the feature extraction network augmented with the attention mechanism improves diagnostic accuracy by 8.42% compared to other networks; enhances by 14.67% over using only the WGAN-GP generation module; and significantly elevates fault diagnosis accuracy by 28.67% compared to other models, thereby validating the effectiveness and superiority of the proposed model, offering an innovative solution for the intelligent maintenance of mechanical equipment.
滚动轴承作为旋转机械设备的关键基础部件,长期在恶劣工作环境中运行,一旦发生故障,将引发设备异常振动和噪声增大,严重威胁工业设备的可靠安全运行[1-2]。由于滚动轴承部件之间的耦合性,单一故障的发生往往会引起其他部位发生故障,形成复合故障[3-4]。滚动轴承复合故障振动信号具有非线性、强耦合的特征,故对其进行准确诊断成为机械故障诊断领域中研究热点。
传统的复合故障诊断技术主要依赖于信号处理方法,其核心思想是从复合故障信号中提取时频特征,通过特征分析诊断不同类型的复合故障。然而,传统故障诊断方法往往需要大量的经验知识,分析过程复杂且耗时,在实际应用中面临诸多挑战[5-6]。近年来,随着人工智能技术在工业领域中的快速发展,利用深度学习进行机械设备复合故障诊断已成为重点研究方向[7]。深度学习模型无需大量专家知识,能够从监测信号中自动挖掘潜在故障特征,从而获得良好的诊断效果[8]。王誉翔等[9]提出了一种基于改进Transformer的故障解耦分类器用于行星齿轮箱的复合故障诊断。Zhang等[10]将一维振动信号转换为二维快速谱图,提出了一种将快速谱图与多分支CNN相结合的风力发电齿轮箱复合故障诊断方法。上述方法可有效诊断机械设备复合故障,但其诊断过程依赖于大量复合故障样本训练模型[11]。然而,在实际生产运行中,由于测量限制或故障发生率低等原因,滚动轴承复合故障数据缺失严重[12]。当面对实际应用中的复合故障数据不足问题时,上述方法无法有效对复合故障进行诊断
零样本学习(zero-shot learning,ZSL)作为一种新兴的机器学习方法,可以有效地解决数据稀缺问题。其基本思想是通过某种形式的辅助信息将已知类和未知类关联,训练出具有识别未知类能力的模型[13]。受ZSL思想的启发,研究人员尝试引入嵌入式ZSL模型,利用单一故障样本训练复合故障诊断模型,实现未知复合故障诊断。Xing等[14]提出了一种标签描述空间嵌入模型,通过构建标签描述空间来提供复合故障的语义信息,实现了在仅有单一故障数据用于训练的情况下对复合故障的识别。Xu等[15]提出了一种基于零样本学习的滚动轴承复合故障诊断模型,设计了故障特征编码方法,利用欧氏距离测量信号特征与语义特征之间的距离来识别复合故障,在自建的测试台上进行实验,当训练样本数达到2 000时,模型的平均诊断准确率为74.62%。上述模型验证了ZSL在零样本复合故障诊断中的有效性。
在滚动轴承运行过程中,当出现复合故障,且其不同故障特征较为相似时,上述嵌入式ZSL模型在对故障特征与类别标签进行匹配时,容易出现匹配错误,从而削弱模型的分类性能。针对该问题,本文从生成模型的角度出发,提出了一种基于反馈对比生成的零样本滚动轴承复合故障诊断模型。首先,利用单一故障数据构建了零样本学习数据库,并采用注意力引导ConvNeXt特征提取模块获得高区分度的故障特征。其次,设计故障特征生成器生成较高质量的伪故障特征,生成器结合对抗训练与属性反馈对齐网络,并引入对比学习模块提高故障特征生成器的鲁棒性。最终,通过计算伪故障特征与未知复合故障特征之间的相似度,实现对未知复合故障的诊断,从而有效地解决了复合故障数据缺失下的诊断问题,为滚动轴承复合故障诊断提供了新方法。
1 零样本滚动轴承复合故障诊断模型
零样本复合故障诊断的核心在于利用已知的单一故障训练模型得到映射关系F:Xtrain→Ytrain,以预测未知复合故障的标签。训练集G={Xtrain,Ytrain}由已知的单一故障样本集及其对应的标签集组成。测试集T={Xtest,Ytest}由未知的复合故障样本集及其对应的标签集组成。数据库中总故障样本数为N=Ntrain+Ntest,已知的单一故障样本数为Ntrain,未知的复合故障样本数为Ntest。根据ZSL的理论,训练集G和测试集T中故障类别需满足以下条件:G∩T=φ,且测试故障类别K与训练故障类别P不相交。
1.1 零样本数据库构建
连续小波变换(continuous wavelet transform,CWT)可以在不丢失原始信号信息的情况下,对振动信号在不同时频域的局部特征进行表征[16]。为突出故障振动信号中的关键信息,本文采用CWT将采集到的滚动轴承故障振动信号转换为二维时频图像,从而构建包含多种滚动轴承故障状态的数据库。整个过程为:
(1)
(2)
式中:α为尺度参数,β为平移参数,ψα,β为小波基函数,ψ*()为函数ψ()的复共轭。
1.2 特征提取模块
注意力引导ConvNeXt特征提取模块融合了卷积块注意力机制(convolutional block attention module,CBAM)和ConvNeXt-B网络,从而更高效、更准确地提取特征。
CBAM包括通道注意力机制(channel attention module,CAM)和空间注意力机制(spatial attention module,SAM)两部分[17],见图1。当卷积神经网络生成特征图后,CBAM会从通道和空间两个维度计算特征图的权重。然后,将权重与输入特征图相乘,进行自适应学习,从而获得精细化特征。
图1CBAM结构图
Fig.1CBAM architectural diagram
在给定特征图的情况下,通道注意力模块会推断出一维的通道注意力图Mc,反映每个通道的重要性。空间注意力模块则推断出二维空间注意力图Ms,反映不同空间位置的注意力分布。整个过程为:
(3)
(4)
式中:F为原始特征图,F′为加权后特征图,F″为精细化特征图,为元素逐位相乘。
ConvNeXt作为一种卷积神经网络,融合了Swin Transformer设计理念,同时改进了ResNet网络中的倒置瓶颈和深度卷积的问题。为减少冗余信息的干扰,增强提取特征的可区分性,在ConvNeXt-B网络的4个ConvNeXt Block层后分别加入了CBAM,从而构建注意力引导ConvNeXt特征提取模块,结构见图2。图2中阶段1~4重复堆叠次数为[3,3,27,3],输入通道数为[128,256,512,1 024]。
图2注意力引导ConvNeXt结构图
Fig.2Attention-guided ConvNeXt architectural diagram
ConvNeXt Block作为特征提取模块中的关键单元,主要由群卷积模块和残差连接模块两部分组成,其结构见图2。组卷积模块采用深度可分离卷积和倒置瓶颈结构,以减少参数和计算时间。残差连接模块通过跨层连接增强了网络的表达能力和泛化性能。与ResNet中的瓶颈层设计不同,ConvNeXt Block结构为中间粗两端细,这种设计能够有效减少下采样过程中高维特征信息的损失。同时采用层归一化替代批归一化,以加速网络的收敛并减少过拟合。层归一化计算公式为
(5)
式中:x为层归一化输入,y为与x形状相同的输出,E[x]为输入x的均值,Var[x]是输入x在特征维度上的标准方差,ε为常数,用于避免数值不稳定; γ为缩放因子,β为平移因子。
此外,Transformer中的GELU激活函数比ReLU激活函数更平滑,因此在ConvNeXt Block层中使用GELU替代ReLU。GELU函数计算公式为
(6)
如图2所示,下采样由层归一化层和卷积层组成。通过下采样层,可以减小提取到的特征图的尺寸,过滤掉影响较小的特征和冗余信息,同时保留关键的特征信息。此外,下采样还可以降低计算成本和内存消耗。
注意力引导ConvNeXt特征提取模块的输入为3×256×256的时频图样本,经过卷积层、层归一化、ConvNeXt Block、下采样、CBAM和全局平均池化层的逐层处理,最终输出1×1 024的故障特征向量。
1.3 反馈对比生成模块
生成模型能够根据复合故障的属性信息生成相应的故障特征,以解决复合故障样本缺失的问题。为解决生成数据不稳定的情况,选用Wasserstein梯度惩罚生成对抗网络(wasserstein generative adversarial network with gradient penalty,WGAN-GP)生成伪故障特征,生成器的损失函数为
(7)
式中:D为判别器,x为真实故障特征样本,=G(a)为生成的伪故障特征,a为故障属性,为真实特征x与伪特征间插值,λ为惩罚系数,为真实故障特征样本在判别器中的数学期望,为故障属性在生成器中的数学期望,为插值在判别器的数学期望。
利用故障属性信息和正态分布的噪声来生成伪故障特征的过程为
(8)
式中:G为生成器,ε为服从正态分布的噪声。
在生成式零样本学习中,生成器会根据对应的属性信息生成伪故障特征。然而,这些生成的伪故障特征可能包含与属性无关的干扰信息(例如噪声),这会导致故障特征与属性信息不一致,从而影响分类器对不同故障特征的识别和分类能力。为了缓解特征与属性不匹配的问题,提出一种属性反馈对齐网络(attribute feedback alignment,AFA)。该网络由一个3层MLP网络构成,其核心思想是保证生成的伪故障特征能够准确反映其对应的属性信息,并且通过生成的故障特征能够有效地恢复原始故障属性信息。合成的故障特征其属性信息一致性越高,合成的故障特征质量越高。根据基本思路,如果能够完全映射回a,那么合成的故障特征和属性信息可以认为是一致的。设置最大化合成故障特征与属性信息a之间一致性的损失函数LAFA为
(9)
式中:E()为一个由3层MLP构成的嵌入网络,通过将故障特征转换到一个与故障属性一致的空间中,以辅助增强属性反馈对齐网络的效果;FAFA()为属性反馈对齐模块,将合成的故障特征映射回到属性信息a,以确保生成的故障特征具有较高的质量和一致性。
为了生成更具辨别力的故障特征,本文将生成器与对比学习结合,生成接近正样本但远离其他样本(负样本)的故障特征,从而提升分类任务表现。对比学习的核心思想是强制合成的故障特征接近其正样本x+,但远离其负样本x-。对比学习的损失函数为
(10)
式中:为合成的第i类故障特征,x+为第i类故障所有样本的特征集合,x-k为第k(k≠i)类故障所有样本的特征集合,K为负样本的数目,τ(τ>0)为温度参数。
1.4 故障识别模块
计算新的复合故障样本的真实故障特征与生成器合成的伪故障特征的欧氏距离为
(11)
式中:xi为复合故障样本的真实故障特征,为合成的伪故障特征。将距离最小的类别标签分配给该样本,最终完成对未知复合故障的诊断。
2 零样本滚动轴承复合故障诊断流程
本文提出的零样本滚动轴承复合故障诊断流程如图3所示,包含以下4个关键步骤。
Step1 零样本数据库。使用连续小波变换将一维时域振动信号转换为二维时频图,构建零样本学习数据库。
Step2 特征提取。将数据库样本输入至注意力引导ConvNeXt特征提取模块,以提取具有高区分度的故障特征。
Step3 反馈对比生成。结合对抗训练和属性反馈对齐网络,通过故障属性生成更高质量的伪故障特征。同时,通过对比学习辅助生成器合成接近正样本但远离其他样本的故障特征,提高故障特征生成器的性能。
Step4 零样本故障诊断。通过计算生成器生成伪故障特征与未知复合故障特征的欧氏距离,将相似度最高的类别标签作为未知复合故障标签,实现未知复合故障的诊断。
图3零样本滚动轴承复合故障诊断流程
Fig.3Process of zero-shot rolling bearing composite fault diagnosis
3 结果与分析
3.1 实验数据介绍及数据库构建
为评估模型性能,本文在实验室智能诊断测试台进行实验,见图4。该平台包括驱动电机、传感器、故障轴承及其轴承座、径向加载器、平行齿轮箱、行星齿轮箱和磁粉制动器。为了获得故障的振动信号,在故障轴承座上放置加速度传感器,通过多通道振动数据采集器进行数据采集。设置滚动轴承的工作负荷为0 kW,转速为1 800 r/min,采样频率为10 kHz,采样时间为35 s。
实验中采集不同8种不同状态下的滚动轴承振动信号样本,包含1种健康状况,3种单一故障和4种复合故障形式,8种状态下的滚动轴承发生故障部位与标签见图5、表1。
图4智能诊断测试台
Fig.4Intelligent diagnostic test bench
图5故障轴承示意
Fig.5Faulty bearing schematic diagram
表1故障轴承名称与标签
Tab.1Nomenclature and labeling of faulty bearings
对于每类故障振动信号,连续提取307 712个数据点,设置50%的窗口重叠率滑动截取每1 024个数据点构成一个故障样本。针对每个故障样本,设置CWT的窗口大小为1 024将其转换为256×256的时频图像样本,每类故障的样本数为600。最终,构成包含8种状态、4 800个样本的数据库。
3.2 实验过程与结果分析
3.2.1 不同故障诊断实验结果分析
为了探讨零样本复合故障诊断的性能,将数据库中的正常状况及单一故障划分为已知类故障,用于模型训练;复合故障样本划分为未知类故障,仅用于模型测试。为研究训练样本数量对模型故障识别准确率的影响,设计了一系列实验,见表2。表2中实验A测试类别(未知类)为IO、IB、BO 3种复合故障。根据训练样本数的不同,实验A进一步细分为实验A1、实验A2和实验A3。实验B测试类别(未知类)为IO、IB、BO、IOB 4种复合故障。根据训练样本数的不同,实验B进一步划分为实验B1、实验B2和实验B3。
表2实验划分
Tab.2Experimental segmentation
图6展示了本文所提模型在6组实验中对复合故障的诊断准确率。
图6不同实验的故障诊断准确率
Fig.6Fault diagnosis accuracy rates across various experiments
从图6可以看出,随着训练样本数的增加,实验A、实验B的故障诊断准确率均呈现上升趋势。当训练样本总数达到2 400时,实验A、实验B的最高诊断准确率分别为74.50%、62.50%。本文采用零样本学习方法,复合故障样本仅用于测试而非训练,这与传统复合故障诊断模型有本质区别。因此,本模型的诊断准确率相对较低。此外,实验B相较于实验A增加了由3种单一故障组合而成的IOB复合故障,提高了诊断任务的复杂度,因此实验B的故障诊断准确率低于实验A。
为更直观地展示每个类别的诊断精度,绘制6组实验故障诊断结果的混淆矩阵,见图7。
图7中矩阵横轴表示预测复合故障标签,纵轴表示真实的复合故障标签,每个单元表示故障诊断精度。由图7(a)~(c)可知,在实验A中,本文模型对IB和BO的分类性能相对较弱,在实验A3中,IB和BO的诊断精度分别为62.00%、70.50%。由图7(d)~(f)可知,在实验B中,增加IOB复合故障。B故障的特征相对微弱,易被其他故障的显著特征掩盖,导致模型难以有效区分IO和IOB两类故障,因此模型对IOB故障的诊断准确率较低。
图7不同实验的混淆矩阵
Fig.7Confusion matrices of various experiments
3.2.2 不同特征提取模块的实验结果分析
为评估所提出的注意力引导ConvNeXt特征提取模块在模型诊断未知类故障中的性能影响,在保持模型其余模块不变的情况下,将特征提取模块分别更换为ConvNeXt-B网络、Swin Transformer网络以及ResNet18网络,并进行相应实验,实验结果见图8。
图8使用不同特征提取模块的故障诊断结果
Fig.8Fault diagnosis outcomes utilizing diverse feature extraction modules
当特征提取模块为ResNet18时,在实验A、实验B中分别达到66.39%和56.18%的最高准确率。当特征提取模块为Swin Transformer时,相较于ResNet18网络,6组实验的故障诊断准确率均有提升,尤以实验A3最为显著,提升了3.86%。当特征提取模块为ConvNeXt-B时,相较于其他两个网络,进一步改善了模型的性能,但仍低于本文提出的注意力引导ConvNeXt模型。通过在网络中引入CBAM,本文模型在实验A、实验B中的准确性显著提高,与基于ConvNeXt-B的模型相比,本文模型在实验A、实验B中的诊断准确率最大增幅分别达到4.28%、3.85%。
为更好地展示注意力引导ConvNeXt特征提取模块的效果,使用t-分布随机领域嵌入方法(t-distributed stochastic neighbor embedding,t-SNE)对实验B3的原始数据、ResNet18、ConvNeXt-B和注意力引导ConvNeXt提取的特征进行可视化处理,结果见图9。图9中不同颜色的图形表示实验B中不同类别的故障数据,不同类别的故障对应不同的标签:0为故障I,1为故障IO,2为故障IOB,3为故障IB,4为故障B,5为故障BO,6为故障N,7为故障O。从图9(a)可以看出,原始数据严重重叠,难以区分。从图9(b)可以看出,ResNet18提取的故障特征虽有一定区分度,但仍存在部分重叠和错分现象。从图9(c)可以看出,ConvNeXt-B提取的故障特征分布相对集中,但IO和IB故障仍有重叠。从图9(d)可以看出,注意力引导ConvNeXt提取的故障特征在二维空间中分布更分散,各类别间界限清晰,无重叠和错分现象,展现出更强的特征辨别能力。
图9特征降维的散点图
Fig.9Scatter plots of feature dimensionality reduction
3.2.3 消融实验结果分析
为验证AFA模块和对比模块的有效性,进行3组消融实验,结果见表3。实验比较了3种模型配置:仅使用WGAN-GP生成模块、使用WGAN-GP+AFA模块以及使用反馈嵌入生成模块+对比模块(本文模型)。
通过表3中不同实验的准确率数据可以看出,本文模型在各实验中的平均准确率有显著提升。相较于其他两个模型配置,在实验A中,本文模型的准确率平均提升了12.28%、8.00%;在实验B中,平均提升了11.29%、6.33%。在实验A1中,本文模型的准确率为65.67%,明显高于仅使用WGAN-GP生成模块和使用反馈嵌入生成模块的模型14.67%、8.17%。在实验B1中,本文模型的准确率为53.75%,相较于仅使用WGAN-GP生成模块的模型提升了12.87%,验证了AFA模块和对比模块的有效性。
表3消融实验结果
Tab.3Ablation experiment outcomes
3.2.4 不同模型实验结果对比分析
图10不同模型的故障诊断结果
Fig.10Fault diagnosis results of various models
从图10可以看出,不同模型的复合故障诊断准确率存在显著差异。f-CLSWGAN模型通过生成对抗网络生成伪特征,并利用这些合成的伪特征进行分类,诊断准确率相对较低,在实验A、实验B中的最高准确率仅为52.17%、34.25%。CADA-VAE模型采用变分自编码器进行特征学习和生成伪特征,通过对齐生成特征和真实特征的分布来提高分类性能。在实验A中,该模型的最高准确率为62.83%,略高于f-CLSWGAN模型。而在实验B中,其最高准确率为46.50%,高于f-CLSWGAN和CDL模型。CDL模型通过在视觉空间和语义空间之间共享结构来学习未知类的原型,因而在实验A达到了较高的准确率63.67%。本文模型利用注意力引导ConvNeXt,从样本中获取有效的特征信息,考虑属性相似的故障类别间关系,并使用AFA模块辅助生成器生成更具有代表性的伪特征,从而显著提高了分类准确率,最高准确率达到74.50%,明显优于其他3种模型。
为更直观展示模型的诊断性能,本文展示了在实验A1其他3种模型与本文模型的混淆矩阵结果,见图11。
图11中展示了不同模型在实验A1中故障诊断的混淆矩阵,通过图中纵向(实际标签)和横向(预测标签)的对比,可以观察到模型在诊断IO、IB和BO 3个类别时正确的样本数和准确率。
从图11(a)可以看出,f-CLSWGAN模型在故障IO和BO的样本存在严重的错分现象。从图11(b)可以看出,CADA-VAE模型对故障IB的诊断结果最差,600个样本中仅有216个样本诊断正确,故障BO的诊断效果相对较好。从图11(c)可以看出,CDL模型的诊断性能优于f-CLSWGAN和CADA-VAE两个模型,故障IO的诊断准确率最高,达到93.50%,仅有39个样本诊断错误,但故障IB和BO的诊断准确率较低。图11(d)展示了本文模型的诊断结果,与图11(c)相比,本文模型平均诊断准确率最高,虽然故障IO的诊断准确率79.50%,低于CDL模型,但在故障IB和BO的诊断准确率上分别高于CDL模型5.00%、42.50%,因此与其他模型相比,本文模型诊断准确率显著提高。
图11不同模型实验A1的混淆矩阵
Fig.11Confusion matrices of experiment A1 for different models
综上所述,通过对比4种不同模型在复合故障零样本任务中的表现,可以明显看出本文提出的模型在诊断效果上更为出色,对未知复合故障的诊断能力更强,验证了本文模型的有效性和优越性。
4 结论
1)通过注意力引导ConvNeXt特征提取模块有效提取了故障的关键信息,减少故障数据中的冗余信息干扰,从而显著提高了故障特征的区分度。
2)通过融合对抗训练、属性反馈对齐网络和对比学习模块提升了故障特征生成器的鲁棒性,生成高质量的伪故障特征,实现了对未知复合故障的准确诊断,解决了因复合故障数据稀缺导致的故障识别困难问题。
3)在智能诊断测试台上进行的一系列实验结果表明,本文模型在仅利用单一故障样本进行训练的情况下,依然能够实现对未知复合故障的诊断。在不同的对比实验中,本文模型在故障诊断准确率上实现了显著提升,准确率可达到74.50%,充分证明了本文模型在未知复合故障诊断任务中的优越性和有效性。

