摘要
接触网支撑悬挂部分是铁路接触网的关键基础设施,受弓网之间长期接触振动影响,接触网零部件易产生各种缺陷。基于接触网 4C 图像开展缺陷监测是运维的核心工作,直接关系铁路运输安全和可靠性。传统人工检测方法存在劳动强度大、效率低、易漏检等问题,利用图像处理和人工智能技术实现缺陷自动检测是该领域研究的热点问题。接触网零部件种类繁多且各类缺陷样本稀缺,现有依赖大量训练样本的深度学习方法难以适用。为此,提出基于变分自编码器(VAE)的接触网缺陷分类方法(DefVAE)。该方法基于同类样本在特征空间满足高斯分布的假设,利用 VAE 编码器输出的潜在特征确定已知缺陷样本的特征分布,通过分布空间重采样和解码生成大量缺陷数据以弥补样本不足;编码阶段引入辅助标签信息,增大潜在特征空间的类间分布距离;缺陷分类阶段采用滑动标签辅助的图像生成方法,结合重构误差提升分类精度。在开源数据集及接触网 4C 数据集上的对比实验和消融实验结果表明,DefVAE 在开源数据集上多数指标优于基线方法,在接触网缺陷分类中具有很高的分类精度。
Abstract
The supporting and suspension parts of the catenary are the key infrastructure of the railway catenary. However, due to the long-term contact-induced vibration between pantograph and catenary, the components of the catenary are prone to various defects. Defect monitoring based on 4C images of catenary is the key to operation and maintenance tasks, which directly relates to the safety and reliability of railway transportation. Traditional manual inspection methods face challenges such as high labor intensity, low efficiency, and a high missed detection rate. Therefore, using image processing and artificial intelligence technology to detect defects automatically is a hot issue in this research field. The components of the catenary are diverse in type, and samples of each type of defect are scarce, making the existing deep learning methods that rely on a large number of training samples difficult to apply. To overcome this problem, we proposed a classification method, named defect detection based on variational autoencoder (DefVAE) for catenary. This method was based on the assumption that samples of the same class follow a Gaussian distribution in the feature space. It utilized the potential features from the output of a variational autoencoder (VAE) to determine the feature distribution of known defect samples and generated a large amount of defect data through resampling and decoding in the distribution space to compensate for the lack of samples. During the encoding phase, we incorporated auxiliary label information to increase the inter-class distribution distance in the latent feature space. During the defect classification phase, we adopted an image generation method assisted by sliding labels and combined the reconstruction error to improve the classification accuracy. The results of comparative and ablation experiments on open-source datasets and catenary 4C datasets show that DefVAE outperforms the baseline methods in most indicators on the open-source datasets and has high classification accuracy in the classification of catenary defects.
接触网是电气化铁路的关键基础设施,由于接触网和受电弓长期相互作用,零部件易出现松动、脱落、开裂缺陷 [1],及时发现并处理这些缺陷是接触网运维的核心工作,是保障铁路安全运行的基础。接触网缺陷检测从早期的人工检测记录发展到利用 4C 检测车获取图像后进行人工视检的方法。但接触网 4C 图像采用高分辨率相机拍摄,图像数量庞大,人工视检需逐张仔细浏览以排查缺陷,存在工作量大、劳动强度高、易漏检、检测周期长等问题。因此,利用图像处理和人工智能技术实现接触网 4C 图像的智能分析成为该领域的研究重点。近年来,计算机视觉和深度学习在各领域的应用日益广泛,很多学者尝试将其应用到接触网 4C 图像的智能分析中,并取得了不错的效果 [2-5]。
接触网 4C 图像分析通常分为零部件检测和缺陷分类两个阶段。零部件检测阶段需完成关键零部件的定位和检测,可采用深度学习方法,通过标注大量图像样本训练模型以实现可靠检测[6-8]; 缺陷分类阶段则基于零部件定位结果进行缺陷类别判定。由于接触网的支柱种类多、各支柱零部件数量多、每种零部件缺陷类型丰富,而实际中单个零部件的各类缺陷样本稀缺,导致依赖大量样本学习的深度学习方法难以训练出具有良好泛化能力的缺陷分类器,给基于机器学习的 4C 图像智能分析带来极大挑战。因此,在缺陷样本稀少的情况下实现高精度缺陷分类是接触网 4C 图像智能分析的关键问题。针对这一问题,部分研究人员将缺陷检测建模为一个异常检测问题[9],其核心思想是从大量正常样本中学习精确模型,通过当前样本与模型的差异判别是否异常。目前基于深度学习的异常检测分类法大致可分为 5 种[10] : 有监督的异常检测、半监督的异常检测、无监督的异常检测、基于混合模型的异常检测、基于一类神经网络的异常检测。尽管有监督方法精度较高,但受限于缺陷样本稀缺,应用受到很大限制; 半监督方法假设训练集只含一类数据,通过正常数据分类边界进行异常检测; 基于混合模型的异常检测将深度学习提取的特征输入传统算法中(如 RBF、SVM 等); 基于一类神经网络的异常检测结合了深层网络优势,通过丰富目标数据表示(如超平面、超球面)分离正常数据与异常值; 无监督异常检测中,很多方法以自动编码器(AE)为基础,通过学习数据固有特征分布,基于重构误差判别异常。
基于自编码器及重构误差的异常检测方法是目前研究热点。 Kang 等使用深度去噪自编码器检测铁路接触网绝缘子表面缺陷; Bergmann 等[11] 使用结构相似度替代像素值对比,提升重构误差的鲁棒性并减少误检; Gong 等[12] 通过记忆模块增强自动编码器(MemAE),使异常样本的重建结果趋近于正常样本; Wang 等[13] 提出基于半监督学习的自编码器网络结构用于轨道异物检测,但这类方法在零部件缺陷面积小,或特征不明显时效果欠佳。
部分学者提出基于生成对抗网络(GAN)的异常检测方法。例如,Schlegl 等[14]提出 AnoGAN,通过图像残差和鉴别器中间特征残差定义异常评分检测视网膜图像异常; Lyu 等[15] 将 AnoGAN 作为一种通用的异常检测方法检测接触网缺陷部件; Zenati 等[16] 和 Schlegl 等[17] 提出改进的 AnoGAN 方法(f-AnoGAN),降低检测计算成本。然而,由欧氏度量定义的重建误差很难区分正常图像和带有细微缺陷的图像,且这些方法只能检测异常,不能辨别缺陷类别。
针对现有方法在异常缺陷分类检测中的不足,结合接触网 4C 图像缺陷分类中“缺陷种类多、样本稀少”的实际问题,本文提出基于 VAE 的缺陷检测方法(Defect detection VAE,DefVAE)。该方法利用大量正常样本学习各类别正常样本的数据分布特征,基于缺陷样本的重构误差判别缺陷; 通过少量缺陷样本在潜在特征空间的分布,经重采样-解码生成得到大量的缺陷数据以扩充数据集; 编码阶段引入辅助标签信息增大类间分布距离; 缺陷分类阶段采用滑动标签方法,基于重构误差最小准则确定缺陷的类别。本文方法的主要特点包括:
1)生成缺陷样本时,通过学习原始正常图像潜在空间分布,计算缺陷样本分布边界,在该分布内采样获取更多缺陷样本。
2)引入样本标签信息,解决无标签时潜在空间向量的类间重叠问题,增大类间距离以利于缺陷分类。
3)仅使用编解码器和单一的重建误差,不需要对抗训练,在降低网络复杂度的同时保证生成样本的质量,实验证明对抗训练和额外损失函数无法进一步提升样本质量。
4)结合分类器和滑动标签辅助的图像生成方法,当辅助标签与缺陷不匹配时,重建图像与原始图像有较大差异,进而提升缺陷分类精度。
1 本文方法
1.1 系统组成概述
接触网 4C 图像由安装在检测车上的数十台高清工业相机于夜间拍摄,相机从正面和反面连续拍摄接触网设备的全局和局部图像。传统基于自编码器重构误差的异常检测仅能判别缺陷是否存在,不能对缺陷进行分类。研究发现,标签类别不匹配时,生成图像与原始图像差异显著。因此,本文引入基于滑动标签的重建误差进行缺陷检测与分类。为了解决缺陷样本稀缺问题,通过寻找各类缺陷在潜在空间中的分布并进行重采样,生成缺陷样本以扩充缺陷数据集。本文提出的缺陷检测(DefVAE)与分类网络分为 3 个部分:接触网零部件图像定位、生成网络、缺陷分类网络。网络结构如图1所示。
图1基于 DefVAE 的 4C 缺陷分析流程
Fig.14C defect analysis process based on DefVAE
1.2 接触网零部件的图像定位
该部分主要是在原始图像中对接触网各个零部件进行定位和提取,可采用 Yolo 系列[18-20]、FasterRCNN [21]等性能优异的深度学习目标检测网络。值得注意的是,绝缘子等大型部件由于尺寸差异和自身重复性,需采用切片处理,通过滑动窗口将其分割为多个固定大小的图像块,且相邻子图保持一定重叠,以免破坏缺陷区域。
1.3 生成网络
为探究潜在空间特征向量的维度分布及其对生成图像的影响,训练阶段需使编码后生成的图像与原始图像尽可能对应且相似。现有生成网络大多无法将生成图像与其输入图像一一对应,为此,本文基于变分自动编码器(VAE [22])设计了带标签的变分自动编码器网络,如图2所示。该网络主要由编码器和解码器组成。与标准 VAE 的区别在于引入标签辅助信息以获取清晰的分布边界。
图2带标签的变分自动编码器结构
Fig.2VAE structure with label
1)编码器(Encoder)。基于样本在潜在空间呈高斯分布的假设,DefVAE 的编码器将输入图像补丁x 编码为两个维度相同的潜在向量,分别作为初始均值 μ0 和方差的对数 log σ 2,即:
(1)
再将输入图像补丁 x 对应的标签信息 y 通过嵌入机制转化为与初始均值 μ0 相同维度的信息向量 yem。再通过公式得到潜在空间中各维度正态分布组成的均值向量 μ:
(2)
由此获得输入图像补丁 x 在潜在空间向量的专属分布 N(μ,σ)。
2)解码器(Decoder)。通过公式采样得到潜在向量 z 作为解码器的输入:
(3)
其中 ε∈(-3,3),即以 3σ 原则为基础进行重采样。解码器将 z 重建为新的图像补丁即:
(4)
由于解码器相当于编码器的反变换,二者应当具有相同的网络复杂度。
3)损失函数(Loss function)。在自动编码器的训练阶段,损失函数定义为图像像素级差异的重构损失:
(5)
其中 x 和分别对应原始图像和解码器重建的图像。
1.4 缺陷分类网络
接触网 4C 图像缺陷分类的核心问题就是正常样本数量庞大而缺陷样本稀缺。为解决这一问题,如图3所示,使用 DefVAE 的编码器获取各类缺陷图像的潜在空间分布,并通过加噪的方式在该分布空间内进行重采样,以生成足够数量的缺陷图像,实现对分类器的训练。
图3分类器训练流程
Fig.3Training process of classifier
缺陷分类网络使用双重度量标准提升分类精度,即基于滑动标签的重建误差和基于深度神经网络的分类器的类别置信度。
1)样本在潜在空间上的数据分布
假设编码器提取的潜在空间向量各维度均为相互独立的正态分布,通过计算潜在向量各维度的分布 N(μ,σ),依据 3σ 原则,在(μ-3σ,μ + 3σ)范围内采样潜在向量生成新的数据。表达示如下:
(6)
(7)
(8)
式中:μi为引入标签信息 y 后的正态分布均值; B(dim)为伯努利函数,随机生成向量掩码 0 和 1; 为其反函数; c 为随机向量,且 c∈(-3,3)。
图4为绝缘子主体的潜在向量分布情况。
图4绝缘子主体的潜在向量分布图
Fig.4Latent vector distribution of insulator body
2)分类器训练
在训练缺陷检测分类器时,首先利用各类缺陷的分布情况,按照上述公式生成一系列缺陷图像,再使用有监督方法,将生成的缺陷图像与原始数据(包含正常和各类缺陷样本)共同输入分类器。在分类器训练过程中,将原始数据切片并编码后,根据对应零部件的 n 种缺陷,定义分类器输出类别为 n + 1(包括一类正常类别)。分类器的损失函数为
(9)
式中:M 为每次批处理的样本个数; S( l k )为使用 Softmax 函数激活输出层对应的神经元; yk 为 onehot 形式编码的标签; 输出层包含 k 个神经元,分别对应正常(1 类)和缺陷(n 类),共 n + 1 个类别。
3)缺陷检测与分类
图5为缺陷检测与分类阶段的流程,评估指标分为两部分:分类器的类别置信度 pi 与重构误差 ei。
将原始数据与生成数据合并后得到新的数据集,加强训练编码器后将图像切片输入分类器得到各类别置信度 pi。研究发现,标签信息不匹配时的生成图像与匹配情况相比差异显著。图6为管帽数据在不同标签下的重建图像效果对比。将原始图像与不同标签下重建图像的重构误差 ei 也作为重要指标。为合并二者得到最终缺陷评估指标,需要先将重构误差进行归一化处理得到:
(10)
式中,ei 为原始重构误差,N 为标签数量。通过加权平均类别置信度与重构误差得到最终的缺陷评分 si:
(11)
式中 α 为平衡类别置信度与重构误差的权重系数。
图5缺陷检测与分类流程
Fig.5Defect detection and classification process
图6基于滑动标签的管帽样本生成
Fig.6Generated sample of cap with sliding labels
1.5 求解过程
本文提出的 DefVAE 方法的实现过程如图7所示,计算步骤如下:
1)对原始图像中的目标部件进行定位和提取,得到原始部件图像切片 X;
2)利用图像切片 X,连其标签信息 Y 训练自动编码器,得到性能优良的编码器 Enc 和解码器 Dec;
3)利用训练好的编码器 Enc 计算各类样本的潜在空间分布,通过对各类潜层分布中心加噪声 N(μ,σ)的方式进行分布内的采样、解码,从而得到更多与标签对应的缺陷图像
4)将生成图像与原始图像合并,划分训练集和测试集;
5)使用训练集训练分类器 C;
6)将所有标签分别作为测试集图片的标签输入自动编码器,并将输出图像与输入图像的重构误差 ei(i = 0,1,2…,n-1,n 为标签数),并与分类器的类别置信度 pi 加权,得到最终的缺陷评分 si;
7)输出缺陷类别 ci。
图7DefVAE 算法流程
Fig.7Algorithm process of DefVAE
2 实验设计与结果分析
为了评估 DefVAE 方法的性能,分别在开源数据集和自制接触网 4C 数据集上开展实验。实验环境为 Ubuntu18. 04 操作系统,神经网络框架基于 Pytorch,硬件配置为 Intel Xeon CPU E5-2670 v3 和 1080Ti 显卡。
2.1 缺陷检测实验
设置图像补丁大小为 64 × 64,单通道灰度图,潜在空间向量 z 的维度设置为 64。选取 3 种典型接触网部件图像数据进行缺陷检测实验:
1)绝缘子主体:将定位得到的绝缘子主体按照 64 × 64 大小切块,制作训练集; 测试集有 570 张图像切片,其中缺陷样本 140 张。
2)吊弦:提取的吊弦区域切割为 64 × 64 的小块作为训练集; 测试集有 300 张图像切片,其中包含缺陷样本 80 余张。
3)管帽:提取的管帽区域调整为 64 × 64 大小作为训练集; 测试集有 100 张管帽图片,其中包含缺陷图片 32 张。
图8为 DefVAE 在 3 种零部件(绝缘子主体、吊弦和管帽)的数据集上各类样本的 ROC 曲线,表1为对应的性能指标。结果显示,本文方法对几类主要缺陷的检测均达到了较高精度。
图83 种接触网零部件的缺陷检测 ROC 曲线
Fig.8ROC curve of defect detection of three catenary components
注:绝缘子主体中 class 0 代表正常,class 1 代表烧伤,class 2 代表缺损,class 3 代表脏污; 吊弦中 class 0 代表正常,class 1 代表异物,class 2 代表毛刺,class 3 代表散股,class 4 代表断股; 管帽中 class 0 代表正常,class 1 代表破裂,class 2 代表缺失。
表1接触网零部件缺陷检测结果
Tab.1Defect detection results of catenary components
2.2 对比实验
采用开源工业图像数据集 MVTec AD 开展对比实验[23],该数据集包含 5 种纹理图片和 10 种目标数据,共 5354 幅高分辨率彩色图像,每种类别都包含正常和缺陷样本,如图9所示。
由于数据是三通道彩色图像,将潜在空间向量 z 的维度设置为 100。通过重构图像扩充数据集后,按 8∶2比例划分训练集和测试集。
对比方法选取 GANnomaly [24]、DifferNet [25]、Cut Paste [26]、CFLOW [27]等典型的缺陷检测方法。 AUC指标的对比结果如表2所示。尽管将原始图像的分辨率从 1 024 × 1 024 降低到了 64 × 64,本文方法在开源数据集上仍具有较好的性能,说明本文方法泛化性能优异。
图9MVTec AD 数据集
Fig.9MVTec AD dataset
注:图中标记为∗的一行对应缺陷图像。
表2开源数据集 MVTec AD 上的实验结果对比
Tab.2Comparison of experimental results on open-source dataset MVTec AD
2.3 消融实验
针对 VAE 生成网络可能产生图像模糊的问题,本文尝试在 DefVAE 网络中引入鉴别器(DefVAEGAN),同时引入 f-AnoGAN 中基于编码结果的重建误差,试图提高自动编码器性能(DefVAE-lrz),公式为
(12)
式中 μ 和分别是对原始图像 x 和生成图像编码后的均值向量。图10为 3 种模式下的图像生成结果。可以看出,在参数配置和数据集相同的情况下,仅使用 Lr即可获得很好的效果,而对抗性训练和 Lrz并不能使效果进一步提升,反而会减缓训练的收敛速度。
图10不同算法下的图像切片生成结果
Fig.10Generated results of image slices with different algorithms
为了证明引入标签信息对寻找潜在向量分布边界的影响,对比绝缘子主体数据集下引入标签信息前后潜在向量 z 的分布情况。图11为利用 t-SNE [28] 降维后的可视化效果。图中,样本类别与右侧色带条对应,紫色代表 class 0( 正常样本),黄色代表 class 3(缺陷 3)的样本,相同颜色越集中,代表分类效果越好。通过对比结果可见,引入标签信息后,各类别在潜在空间中的分布更集中,其边界也更清晰。
图11绝缘子主体图像切片各类潜层向量 2D t-SNE 降维可视化结果
Fig.11Visualization results of 2D t-SNE dimensionality reduction of various latent layer vectors in insulator body image slices
另外,对比了 3 种检测方法,即仅含分类器的 DefVAE( DefVAE-C)、仅含滑动标签的 DefVAE(DefVAE-LE)和完整的 DefVAE。分别在绝缘子主体、吊弦和管帽上进行测试,结果见表3。实验结果表明,结合分类器置信度与基于滑动标签的重建误差可以有效提升缺陷分类性能。
表3消融实验 AUC 结果
Tab.3AUC results of ablation experiment
3 结语
本文提出基于变分自动编码器的接触网 4C 图像缺陷检测方法 DefVAE。该方法在缺陷样本较少的情况下,通过在编码器中引入标签信息来增大潜在空间中特征向量的类间分布距离,利用 VAE 重采样方法在各类样本潜在分布空间抽样以丰富缺陷图像。缺陷检测阶段结合分类网络与滑动标签方法,利用标签不匹配时生成图像与原始输入的显著差别,提升缺陷检测与分类精度。实验证明,该方法相较于常用的缺陷检测方法,不仅可以区分正常和缺陷样本,还可以对缺陷样本进行分类,且性能优异。由于低分辨率图像切片可能导致缺陷信息丢失,未来将尝试提升生成图像分辨率,并将该方法应用于其他缺陷检测任务中。

