Hyperspectral image classification based on lightweight network with attention mechanism

doi:10.11918/202211002

结合注意力机制的轻量化网络高光谱图像分类

doi: 10.11918/202211002

张迎豪，杨芳

武汉科技大学信息科学与工程学院人工智能与信息融合研究院，武汉 430000

基金项目: 国家自然科学基金（62101392）

详细信息

作者简介

张迎豪(1998—)，男，硕士研究生；

杨芳(1989—)，女，副教授，硕士生导师

通讯作者

杨芳，yangfang.idif@wust.edu.cn

中图分类号: TP391

文献标识码: A

文章编号: 0367-6234(2026)03-0151-13

Hyperspectral image classification based on lightweight network with attention mechanism

ZHANG Yinghao ， YANG Fang

Institute for Artificial Intelligence and Information Fusion, School of Information Science and Engineering, Wuhan University of Science and Technology, WuHan 430000 , China

摘要

高光谱图像分类是遥感领域的核心难题，其挑战主要源于高光谱图像的光谱维度高、空间分辨率低，导致分类任务中难以充分提取高光谱图像的空谱特征。针对现有的卷积神经网络（CNN）高光谱图像分类模型参数量大、计算资源消耗高、分类精度不足的问题，提出了一种基于注意力机制的轻量化网络高光谱图像分类模型（AMLW-CNN）。为了增强网络的特征提取能力，将空谱特征提取模块设计为2个多尺度提取模块，并将空间特征提取模块的各卷积层通过残差结构连接，同时引入注意力机制来强化网络对有效特征的提取。另外，为了减少模型参数量，采用非对称卷积来替代三维卷积核、深度可分离卷积来替换二维卷积核。实验结果表明：AMLW-CNN的分类精度优于对比算法，计算复杂度更低，鲁棒性更强。在Indian Pines、Salinas和Pavia U 3个数据集上的总体分类精度分别达到了98.5%、99.8%、99.9%。

关键词

高光谱图像分类 / 多尺度提取模块 / 注意力机制 / 轻量化网络 / 非对称卷积 / 深度可分离卷积

Abstract

Hyperspectral image (HSI) classification is a challenging task in the field of remote sensing, because the HSI has high spectral dimensionality and low spatial resolution, which makes it difficult to fully extract the spatial-spectral features of hyperspectral images in the classification task. Aiming at solving the problems of the existing convolutional neural network (CNN)-based HSI classification models, such as large parameter size, high computational cost and low classification accuracy, a lightweight network hyperspectral image classification model based on attention mechanism (AMLW-CNN) is proposed in this paper. In order to enhance feature extraction ability of the network, the spatial-spectral feature extraction module is designed based on two multiscale extraction modules. In addition, we use the residual structures to connect the convolutional layers of spatial feature extraction module and incorporate the attention mechanism to enhance the extraction of useful features. Furthermore, to reduce the number of model parameters, an asymmetric convolution and a depthwise separable convolution are introduced to replace the 3D and 2D convolution kernels, respectively. The experimental results show that classification accuracy of AMLW-CNN is better than that of the comparison algorithms, with lower computational complexity and higher robustness. The overall classification accuracies on the datasets of Indian Pines, Salinas and Pavia U has attain 98.5%,99.8% and 99.9%， respectively.

Keywords

hyperspectral image classification / multi-scale extraction module / attention mechanism / lightweight network / asymmetric convolution / depthwise separable convolution

1 相关研究 2 基于注意力机制的轻量化网络 2.1 预处理模块 2.2 空谱特征提取模块 2.3 注意力机制模块 2.4 空间特征提取模块 2.5 线性分类模块 3 实验结果与分析 3.1 实验数据集 3.2 评价指标 3.3 实验平台 3.4 实验参数设置 3.5 消融实验 3.6 对比实验分析 4 结语

20 世纪80年代初，遥感技术在理论和实际应用中取得了显著进展，随着成像光谱理论的提出，光学遥感正式迈入到高光谱遥感阶段^[1]。高光谱图像包含了丰富的地物空间和光谱维度信息，随着航空航天事业的发展以及高光谱成像技术的完善，高光谱图像分类展现出了巨大的实用价值和发展潜力，其在灾害监测、军事侦察、刑事调查、国土规划^[2-3]等领域的应用价值和发展潜力日益凸显，分类任务也成为遥感领域的研究热点。

高光谱图像分类的精度高度依赖于训练样本的数量，但是高光谱图像的空间分辨率比较低，导致训练样本不足，容易出现同谱异物和异物同谱现象。同时，由于高光谱图像的光谱分辨率很高（通常包含上百个波段），在处理过程中容易出现休斯（Hughes）现象^[4]，导致分类精度下降。现有的高光谱图像分类算法主要分为传统的机器学习算法和深度学习算法两类，前者存在对特征利用不充分的问题，后者则普遍面临参数量过大的挑战。针对这些问题，本文提出基于注意力机制的轻量化网络高光谱图像分类模型（AMLW-CNN），该模型主要由三维卷积神经网络（3D-CNN）、二维卷积神经网络（2D-CNN）和线性分类单元组成。首先通过主成分分析法（principal component analysis，PCA）^[5]将高光谱图像的频带数进行缩减，把降维后的数据输入3D-CNN进行多尺度空谱特征提取；然后通过通道注意力机制和空间注意力机制，根据重要性为输入数据的不同通道和空间区域赋予相应的权重；再将注意力机制模块输出的数据输入结合了深度可分离卷积和残差结构的2D-CNN，提取更高级特征；最后将数据输入到线性分类单元输出分类结果。

1 相关研究

传统的高光谱图像分类方法通过特征选择和特征提取，然后将处理后的数据输入分类模型进行分类，如支持向量机（SVM）、K-近邻算法（KNN）^[6]、逻辑回归^[7]等。这类算法依赖人工设提取低级和中级特征，未能充分利用高光谱图像的内部关联，破坏了图像中原有的空谱结构，不能综合提取数据的特征，因此特征提取能力有限、分类效果欠佳；此外，传统的机器学习算法泛化能力较差，往往只对特定数据集有效，而高光谱图像的类别复杂多样，选择合适的特征提取模型有一定的困难。

近年来，深度学习技术快速发展，堆叠式自编码器（SAE）^[8]、深度信念网络（DBN）^[9]、递归神经网络（RNN）^[10]和卷积神经网络（CNN）^[11]等模型被广泛应用于高光谱图像分类，衍生出胶囊网络（CapNet）^[12]、生成对抗网络（GAN）^[13]、图卷积网络（GCN）^[14]、注意力机制网络^[15]等方法。Zhu等^[16]提出了深度卷积胶囊网络，结合CNN和胶囊网络缓解参数量过大导致的过拟合问题；Lin等^[17]利用GAN扩增数据，减轻空间分辨率低的影响，在样本点有限的场景中提高分类精度；Hong等^[18]提出基于Transformer的高光谱图像分类算法，提升模型对光谱连续信息的分析能力，减小光谱维度的特征损失；Li等^[19]提出双分支双注意力机制网络，通过上下两个分支依次对应通道注意力机制模块和空间注意力机制模块，增强模型对空谱信息的提取能力。

由于在空间结构信息的特征提取方面CNN有显著优势，因此，本文主要分析基于CNN的高光谱图像分类算法。根据提取特征类别可以分为3类：1D-CNN、2D-CNN和3D-CNN。

1D-CNN通过一维卷积核遍历高光谱图像，提取像素关联的深层光谱特征。Hu^[20]将1D-CNN应用在高光谱图像分类中，该网络包含5个带权层，分别是输入层、卷积层、最大池化层、全连接层和输出层，可深度提取光谱特征，但是无法获得图像空间维度信息，对高光谱图像的空间特征利用不充分。

2D-CNN通过二维卷积核遍历高光谱图像，提取不同波段的空间信息，在自然图像中应用广泛。但是由于高光谱图像波段比较多，若直接处理需要为每个特征图都配置一个卷积核，导致参数量剧增、计算资源消耗大且易引起过拟合，因此需先用PCA对高光谱图像进行降维处理。Xu等^[21]提出的RPNet引入了多尺度提取模块，提升了空间特征提取能力，进而提高了分类精度。但是2D-CNN无法利用光谱特征，对光谱特征的提取不够充分，导致分类效果不佳。高光谱图像同时包含了空间和光谱信息，单独使用1D-CNN或2D-CNN对特征的提取都不充分。为了解决这个问题，Yang等^[22]设计双通道CNN，分别用1D-CNN和2D-CNN提取高光谱图像的光谱特征和空间特征并融合，可以实现更加充分的特征提取，达到了较好的分类水平。

3D-CNN通过三维卷积核在空间和光谱维度移动，同步提取空间和光谱特征。Li等^[23]提出了3D-CNN的基本架构，不用对原始高光谱图像降维就可以进行特征提取，最后将高级特征输入分类器进行分类，得到了较好的分类结果。He等^[24]设计多尺度全卷积3D-CNN，提取高光谱图像的光谱和空间信息，进一步提升了分类水平。尽管3D-CNN对特征的提取更加充分，实现了很好的分类效果，但其参数量过大，计算成本较高。Lee等^[25]提出混合CNN，首先利用3D-CNN 提取高光谱图像的空谱联合特征，再输入2D-CNN提取高级特征，在保证精度的同时，也大幅降低了模型的参数量。

为了更细致地提取高光谱图像深层次的空谱信息，同时降低模型的参数量，本文结合高光谱图像结构特点，基于混合CNN，提出了融合深度可分离卷积、多尺度提取模块、残差结构的轻量化网络模型；为了提高模型的分类精度，引入CBAM（convolutional block attention module）注意力机制模块^[26]。本文的主要贡献如下：

1）优化混合CNN结构。采用残差结构加深网络深度，提高模型的非线性拟合能力，以适配不同类型的数据集。同时采用非对称卷积替代3D卷积核、深度可分离卷积替代2D卷积核，大幅降低网络参数量，在保证精度的同时减少计算资源消耗。

2）引入注意力机制。在经典的基于CNN的高光谱图像分类过程中，特征在前向传播时，各通道和空间区域对下一层特征提取的贡献度相同，未能区分特征重要性，影响分类精度。本文引入注意力机制，把计算资源更有效地分配给权重较大的特征，提高网络对重要信息的提取能力。

2 基于注意力机制的轻量化网络

高光谱图像为包含空间信息和光谱信息的三维立方体数据，模型的输入为三维张量X∈R^H^×^W^×^B（H为图像高度、W为宽度、B为波段数，每个像素都包含B个光谱维度），模型的输出分类结果图为Y={y₁，y₂，··· y_C}∈R^H^×^W（y为地物类别分类结果，C为地物类别数）。AMLW-CNN网络架构如图1所示，分为5个模块：预处理模块、空谱特征提取模块、注意力机制模块、空间特征提取模块、线性分类模块。每个模块依次对高光谱图像进行处理，然后将数据输入下一个模块。

图1AMLW-CNN网络框架图

Fig.1AMLW-CNN network framework diagram

2.1 预处理模块

高光谱图像的高维特征会导致卷积层参数量过大、计算资源消耗高、训练时间延长。为此，采用PCA对图像进行线性降维，在尽可能保留原始信息的前提下压缩光谱维度。PCA通过将数据投影到信息量最大的线性投影维度上，把高维数据映射到低维空间。如将光谱维度为D的特征投影到B维空间（D＞B），可以表示为X∈R^M^×^N^×^B（M、N为高光谱图像的空间尺寸，D为原始光谱维度尺寸，B为投影后的光谱维度尺寸）。具体步骤为：（1）去除高光谱数据的平均值，使数据分布更集中；（2）计算高光谱数据的协方差矩阵；（3）求解协方差矩阵的特征值与特征向量；（4）对特征值按降序排序；（5）保留前B个最大的特征值对应的特征向量；（6）将高光谱图映射至所选特征向量构成的低维空间，最终得到降维后的数据。

2.2 空谱特征提取模块

考虑到高光谱图像的数据结构特点，该模块通过3D-CNN提取降维后数据的空谱联合特征。第一层3D-CNN的卷积核尺寸为3×3×7，在空间维度用3×3尺寸提取空间特征，步长设置为1；在光谱维度用1×7尺寸提取光谱特征，步长设置为3。将初步提取的特征输入两个连续的多尺度提取模块（Inception），进一步强化特征提取。Inception结构如图2所示，包含3个并行通道，卷积核尺寸分别为1×1×1、3×3×3、5×5×5，可以同时提取同一像素不同空间范围内的空谱特征。同时，为降低参数量，在保证分类性能的前提下，采用非对称卷积替换n×n×n卷积核，将其分解为1×1×n、1×n×1、n×1×1的卷积组合。在减少参数的同时，增加网络深度，提高非线性拟合能力。空谱特征提取完成后，将数据输入注意力机制模块。

另外，在模型训练过程中，每层输入都会受前面所有网络层的影响，网络参数的微小波动会导致输出数据分布不断改变，产生内部协变量偏移（internal covariate shift，ICS）^[27]。为了消除这种现象，在每层激活函数前加入批量归一化（batch normalization，BN）层，通过固定数据均值和方差实现标准化，减少各层输入数据的分布波动，从而加速训练收敛。同时，BN层还可以缓解学习率过大导致的梯度爆炸或消失问题，并通过正则化作用降低过拟合风险，无需依赖权值初始化或Dropout层。

图2Inception结构

Fig.2Inception structure

2.3 注意力机制模块

在AMLW-CNN模型中引入CBAM模块，将算力集中在对分类结果更有用的特征上，增大特征的类间方差，从而提高分类精度。CBAM由通道注意力机制（CAM）和空间注意力机制（SAM）组成，分别对输入数据的通道以及空间特征分配权重。

1）通道注意力机制（CAM）

CAM基于空间维度操作，对输入特征图（H×W×B）分别执行全局最大池化和全局平均池化，得到两个1×1×B的特征向量；然后将2个特征向量分别输入共享多层感知机（MLP），通过两层卷积提取特征向量后求和，再输入Sigmoid激活函数将特征值压缩到[0，1]区间，得到各通道的重要性权重；最后将权重与原始输入特征图逐通道相乘，输出通道权重分配后的特征图。其计算过程如式（1）所示：

\begin{matrix} M_{c} (F) = σ (M L P (A v g P o o l (F)) + \\ M L P (M a x P o o l (F))) = \\ σ (W_{1} (W_{0} (F_{avg}^{c})) + W_{1} (W_{0} (F_{max}^{c}))) \end{matrix}

(1)

式中：F为输入特征值；σ为Sigmoid函数；F^c_avg和F^c_max 分别为经过全局平均池化和全局最大池化后的数据；W₀和W₁为共享MLP层的2个卷积层的权重。

2）空间注意力机制（SAM）

SAM基于光谱维度操作，对 CAM输出的特征图分别执行全局最大池化和全局平均池化，得到2个H×W×1的特征图；将2个特征图在通道维度拼接为H×W×2的张量，通过7×7卷积核（补0保证特征图尺寸不变）进行特征提取，经Sigmoid激活函数得到空间区域权重；最后将权重与原始输入特征图逐像素相乘，输出空间权重分配后的特征图。其计算过程可以表示为

\begin{matrix} M_{s} (F) = σ ((f^{7 \times 7} ([A v g P o o l (F); M a x P o o l (F)])) = \\ σ (f^{7 \times 7} ([F_{a v g}^{s}; F_{m a x}^{s}])) \end{matrix}

(2)

式中：f^7×7表示7×7的卷积运算。

CBAM 通过 “通道权重分配→空间权重分配”的两步操作，实现对关键特征的聚焦与无用特征的抑制，随后将加权特征图输入到空间特征提取模块进行进一步处理。通道注意力机制如图3所示，空间注意力机制如图4所示。

图3通道注意力机制模块

Fig.3Channel attention mechanism module

图4空间注意力机制模块

Fig.4Spatial attention mechanism module

2.4 空间特征提取模块

由于3D-CNN庞大的计算量会过度消耗资源，因此空间特征提取模块主要通过2D-CNN来提取高光谱图像更深层次的空间特征，设计了6层二维卷积层，引入轻量化网络，通过改变计算方式降低网络参数量。

1）深度可分离卷积优化

将空间特征提取模块中的二维卷积层替换为深度可分离卷积^[28]，该结构由深度卷积和逐点卷积组成，并在每层后添加BN层和ReLU激活函数，可以在降低计算量的同时，增强模型的非线性拟合能力。深度可分离卷积和普通卷积的计算方式不同，计算量也有很大差异，两者的计算过程分别如图5、图6所示。

图5深度可分离卷积计算过程

Fig.5Depth-separable convolution calculation process

图6普通卷积计算过程

Fig.6Ordinary convolution computing procedure

以下详细分析两种卷积的计算量差异。一次卷积运算的乘法次数等于卷积核大小，即D_K×D_K×M。由于有N个卷积核，并且每个卷积核在空间维度上滑动D_F×D_F次，所以普通卷积的乘法次数为N×D²_F×D²_K×M。

深度卷积阶段：卷积核尺寸为D_K×D_K×1（仅覆盖单个输入通道的空间维度），共配置M个核以匹配M个输入通道；这些核在M个通道上滑动D_F×D_F次，单次卷积计算量为D_K×D_K，因此，深度卷积的运算总数为 M×D²_F×D²_K。

逐点卷积阶段：卷积核尺寸为1×1×M（覆盖全部输入通道、空间维度为 1×1），共配置N个核以输出N个通道；同样要滑动D_F×D_F次，单次卷积运算为1×1×M，因此，逐点卷积的总乘法运算量为M×D²_F×N。深度可分离卷积和普通卷积的计算量之比为

\frac{D_{K} \cdot D_{K} \cdot M \cdot D_{F} \cdot D_{F} + M \cdot N \cdot D_{F} \cdot D_{F}}{D_{K} \cdot D_{K} \cdot M \cdot N \cdot D_{F} \cdot D_{F}} = \frac{1}{N} + \frac{1}{D_{K}^{2}}

(3)

在深度卷积与点卷积后分别加入BN层与ReLU激活函数，既降低计算量，又增强模型的非线性拟合能力。

2）残差结构设计

随着网络深度增加，梯度在传播过程中可能会出现梯度爆炸或消失现象，训练误差也会增大，导致训练精度下降。为了解决此问题，在增加网络深度时引入残差结构来动态调整网络的非线性拟合能力。通过在浅层网络结构中并联y=x的恒等映射层，把前层卷积结果与后层卷积结果逐元素相加，在不增加参数量的前提下，减少特征传递过程中的信息损失，进而提升网络的精度，并在网络过深时抑制退化问题。

2.5 线性分类模块

特征提取完成后，将提取到的高光谱图像高级特征输入到由3个全连接层组成的线性分类单元，将特征映射到样本标签，完成最终的地物分类。在线性分类单元中采用Dropout层（丢弃率为0.5）来防止过拟合。在整个模型中，为提高模型拟合能力和分类精度，所有激活函数均采用LeakyReLU函数，通过引入一个固定负半轴斜率（本文设为0.01），扩大激活函数的有效输入范围，解决ReLU在负输入时的梯度消失问题，使负输入神经元也可以参与参数更新，从而进一步提高模型拟合能力和分类精度。

3 实验结果与分析

为了验证AMLW-CNN模型的分类性能，实验设计如下：在Indian Pines、Salinas、Pavia U 3个数据集上进行消融实验，以验证多尺度提取模块和残差结构的有效性；对比AMLW-CNN和传统卷积模型的网络参数以及分类精度；再将AMLW-CNN和SVM、KNN、1D-CNN、2D-CNN、3D-CNN、CNN-ASS^[29]以及无注意力机制的LW-CNN模型的分类性能进行对比。

3.1 实验数据集

Indian Pines数据集：由AVIRIS机载红外成像光谱仪于1992年在美国印第安纳州农业区拍摄，是第一个公开应用于高光谱图像分类的数据集，AVIRIS成像光谱仪的空间分辨率为20 m·pixel^-1。原始波段数为220。剔除吸水波段（104~108、150~160、220），保留200个波段。图像空间尺寸为145×145像素，总计21 025个像素，其中10 249个为已标记样本点，包含16类地物，如玉米、大豆、燕麦等粮食作物。由于样本之间的差别较小，光谱曲线比较接近，而且样本点分布比较混乱，分类任务挑战较大。

Salinas数据集：由AVIRIS在美国加利福尼亚州山谷拍摄，空间分辨率为3.7 m·pixel^-1。原始波段数224，剔除108~112、154~167、224等噪声波段，保留204个波段。图像空间尺寸为512×217像素，共包含111 104个像素，其中有54 129个样本点被标记，包含16类地物，如耕地、芹菜等。

Pavia U数据集：由德国的机载成像光谱仪在意大利帕维亚城市区域拍摄。原始波段数为115，剔除12个噪声波段，保留103个波段。图像空间尺寸为610×340像素，共包含207 400个像素，其中有42 776个像素被标记为样本点，包括9类地物，如道路、牧场、树木等。

3.2 评价指标

采用全局分类精度（OA）、平均分类精度（AA）与 Kappa 系数评估模型性能。

Kappa系数：基于分类混淆矩阵来衡量分类精度，公式为：

(4)

式中：N为所有地表真实分类中的像元总数；p_m_，_m为混淆矩阵的对角线元素（第m类正确分类的像元数）；p_m_，+为第m类被分类的像元总数；p_+，_m为第m类真实像元总数。

全局分类精度（OA）：正确分类的像素数目与被标记的样本点的总数的比值，公式为

O A = \frac{\sum_{m = 1}^{n} w_{m}}{\sum_{m = 1}^{n} N_{m}}

(5)

式中：n表示图像中的类别数目；N_m为第m类实际像元数目；w_n为正确分类的第m类像元个数。

平均分类精度（AA）：所有类别分类精度的平均值，公式为

A A = \frac{1}{n} \sum_{m}^{n} \frac{p_{m, m}}{N_{m}}

(6)

3.3 实验平台

实验运行环境为Python 3.6+PyTorch框架，使用GPU加速模型训练；硬件配置为Intel^® Core^TM i9-11900处理器、NVIDIA GeForce RTX 3090 GPU；使用Adam优化器，所有实验都基于此平台完成。

3.4 实验参数设置

消融实验中，选取各数据集10%的样本点作为训练样本，其余为测试样本；SVM和KNN模型选用70%的样本进行训练；1D-CNN和2D-CNN选用30%的样本进行训练；3D-CNN、CNN-ASS、LW-CNN和AMLW-CNN选用10%的样本训练。

在训练模型阶段，影响训练时间和分类精度的主要因素包括学习率、卷积层层数和卷积核尺寸。学习率决定了目标函数能否收敛到最小值以及收敛速率。合适的学习率可加速训练过程，促进目标函数更快收敛。根据实验结果，将学习率设置为0.005。在空谱特征提取阶段，单个多尺度提取模块的特征提取能力有限，导致特征提取不充分，但是过多的模块堆叠会增加模型的参数量，带来巨大的算力消耗，同时过深的网络也会导致模型过拟合，造成分类精度下降。因此，本文采用2个连续的多尺度卷积模块以有效提取空谱特征。多尺度提取模块的卷积核尺寸设置为1×1×1、3×3×3、5×5×5的3层独立并行结构，适配不同数据集尺寸。另外，根据实验结果，单个或者不叠加残差块时模型的分类效果不佳，然而叠加过多的残差块会导致模型过拟合，从而使分类精度下降，且过多的残差块会增加模型计算量，带来不必要的算力消耗。因此，空间特征提取模块叠加2个残差结构，以减少数据向后传播过程中的损失，提升模型的拟合能力。

3.5 消融实验

1）多尺度提取模块的影响

保持AMLW-CNN网络模型其他模块不变，分别对比不加入多尺度提取模块、加入1个多尺度提取模块、连续2个多尺度提取模块的模型分类结果。其中，不加入多尺度提取模块的模型，将2个多尺度提取模块都替换为卷积核尺寸3×3×3的卷积层；加入1个多尺度提取模块的模型，将第1个多尺度提取模块替换为卷积核尺寸3×3×3的卷积层，第2个保持不变。实验结果如表1所示，3个数据集上均呈现一致规律：不加入多尺度提取模块的模型分类精度最低，将普通三维卷积层替换为多尺度提取模块后，分类精度有所提升。这说明多尺度提取模块的特征提取能力较普通卷积层更强，可以更充分利用输入图像的不同局部结构，提取更丰富的特征信息，细化分类结果。

表1不同数量多尺度提取模块的模型分类精度

Tab.1Classification accuracy of models with different numbers of multiscale extraction modules

2）残差模块的影响

保持网络其他模块不变，对比不加入残差模块、加入1个残差模块、加入2个残差模块的网络分类结果。实验结果如表2所示：在Indian Pines和Pavia U数据集上，无残差模块的模型总体分类精度较低，加入1个残差模块或2个残差模块后，总体分类精度显著提升；在Salinas数据集上，无残差模块的模型分类精度较低，加入1个残差模块后，分类精度有所提升，加入2个残差模块时分类精度和加入1个残差模块的模型保持一致。分析可知，Salinas数据集相较于Indian Pines和Pavia U数据集，光谱分辨率和空间分辨率都较高，因此样本点更多、信息更丰富，当网络特征提取能力达到一定限度时，新增残差模块无法进一步提升分类性能。综上，残差模块通过残差信号优化，可以显著提高网络拟合能力，提升分类精度，克服有限训练样本下的网络性能不佳问题。

表2不同数量残差模块的模型分类精度

Tab.2Classification accuracy of the models with different number of residual modules

3.6 对比实验分析

1）模型复杂度对比

输入数据尺寸为145×145×200，经过预处理模块的降维和裁剪后，变成30×25×25大小的块；设置训练batch_size为4，则输入三维卷积层的数据尺寸为4×1×30×25×25。依次输入三维卷积层、2个多尺度特征提取模块、通道注意力机制模块、空间注意力机制模块、空间特征提取模块进行特征提取，最后将网络输入分类单元进行分类输出。各个模块的卷积层参数如表3所示。

表3AMLW-CNN模型各模块参数设置

Tab.3Parameter settings of each module of the AMLW-CNN model

表4传统卷积模型各模块参数设置

Tab.4Parameter setting of each module of the traditional model

为了突出AMLW-CNN的轻量化特点，将其与没有应用非对称卷积和深度可分离卷积的传统卷积模型的参数量进行对比，传统卷积模型的各模块参数如表4所示。对比表3、表4的数据可知，2个模型的三维卷积层和注意力机制模块的卷积层参数量相等，多尺度提取模块和空间特征提取模块参数量存在差异。计算可得，AMLW-CNN 2个连续多尺度提取模块的参数量合计为13 024，空间特征提取模块参数量合计为57 536；传统卷积模型的2个多尺度提取模块参数量为39 216，空间特征提取模块的参数量为246 104。通过对比可知，AMLW-CNN的卷积层参数量比传统卷积模型少了214 760。参数量的减少不仅可以节约计算资源，还能提高训练效率。

2）分类精度对比

AMLW-CNN和传统卷积模型的分类精确度对比结果如表5所示，在Indian Pines、Pavia U和Salinas数据集上，AMLW-CNN的分类精度和传统卷积模型相比都有提升。分析可得，相对于传统卷积模型，非对称卷积和深度可分离卷积加深了AMLW-CNN的网络深度，提升了模型拟合能力，使其能更好地提取数据深层次的特征。

表5传统卷积模型和AMLW-CNN模型的分类精度

Tab.5Classification accuracy of traditional convolutional models and AMLW-CNN model

AMLW-CNN和其他对比算法的分类结果如表6、表7、表8所示，分类标签和结果如图7、图8、图9所示。由表可知，由于高光谱图像空间分辨率比较低，训练样本不足，SVM、KNN等传统的机器学习方法特征提取能力有限，不能有效提取数据的高级特征，因此分类效果较差，鲁棒性也较差，而且只对特定数据集的效果明显，模型泛化能力较差。1D-CNN 仅提取光谱特征，特征利用不充分，分类精度最低，分类结果图噪声点较多。2D-CNN只提取高光谱图像的空间特征，且需要对高光谱图像进行降维处理，不能有效提取其光谱特征，分类精度低于 3D-CNN 和 AMLW-CNN。3D-CNN由于可以充分提取高光谱图像的空谱特征，所以分类结果相较于传统机器学习和1D-CNN、2D-CNN表现较好，分类结果图中的噪声点也少了很多，但是其网络结构复杂、参数量巨大，计算成本高。AMLW-CNN相比3D-CNN在Indian Pines、Pavia U、Salinas数据集上的总体分类精度分别提高了4.6%、5.6%、2.5%；与CNN-ASS相比，AMLW-CNN的全局分类精度和平均分类精度更高，分类结果和原始标签更为接近，图像噪声点更少，地物分类更加精确。

表6不同方法在Indian Pines数据集上的分类精度

Tab.6Classification accuracy of different methods on the Indian Pines dataset

表7不同方法在Salinas数据集上的分类精度

Tab.7Classification accuracy of different methods on the Salinas dataset

表8不同方法在Pavia U数据集上的分类精度

Tab.8Classification accuracy of different methods on the Pavia U dataset

图7Indian Pines分类结果图

Fig.7The Indian Pines classification results

图8Salinas分类结果图

Fig.8The Salinas classification results

图9Pavia U分类结果图

Fig.9The Pavia U classification results

分析可得，对于其他方法而言，高光谱图像中部分地物样本点的光谱曲线非常接近，当训练样本不充分、模型对特征的提取能力较弱时就容易造成错分，进而影响分类精度，导致分类结果图中的噪声点显著增多。本文方法能够更充分地结合空间特征来提高分类精度：一方面，高光谱图像中单个样本点的周边样本点更大概率属于同一类别，可通过空间关联性辅助类别判断；另一方面，对于非同类的样本点，本方法可更充分地利用光谱特征差异实现有效区分，最终达成优异的分类效果。

为验证注意力机制的作用，对比了添加注意力机制和没有添加注意力机制模块的算法分类结果，显然，由于本方法在空谱特征提取模块后添加了通道注意力机制（CAM）和空间注意力机制（SAM）模块，分别对输入数据x的不同通道和不同空间区域，根据其对分类结果的重要程度赋予对应权重ca（x）、sa（x），具体权重计算如式（7）、式（8）所示:

c a (x) = [\begin{matrix} 0.5152 & 0.5117 & 0.5132 & 0.5130 \\ 0.4771 & 0.4822 & 0.4786 & 0.4819 \\ 0.4833 & 0.4875 & 0.4845 & 0.4830 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 0.5259 & 0.5284 & 0.5265 & 0.5277 \\ 0.4829 & 0.4759 & 0.4813 & 0.4817 \\ 0.5036 & 0.5057 & 0.5063 & 0.5029 \end{matrix}]

(7)

s a (x) = [\begin{matrix} 0.4875 & 0.4866 & 0.5044 & \dots & 0.5142 & 0.5118 & 0.5142 \\ 0.4796 & 0.4820 & 0.5100 & \dots & 0.5122 & 0.5052 & 0.5063 \\ 0.4836 & 0.4730 & 0.5071 & \dots & 0.5181 & 0.5095 & 0.5153 \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ & ⋮ \\ 0.4806 & 0.4599 & 0.4870 & \dots & 0.4892 & 0.4924 & 0.5027 \\ 0.4833 & 0.4602 & 0.4738 & \dots & 0.4796 & 0.4814 & 0.4888 \\ 0.4640 & 0.4523 & 0.4665 & \dots & 0.4724 & 0.4817 & 0.4907 \end{matrix}]

(8)

由于增大了样本间的类间方差，对空谱特征的提取更加充分，分类精度更高。而且相较传统3D-CNN模型，AMLW-CNN引入了非对称卷积和深度可分离卷积，计算复杂度更低、运行效率更高；通过残差结构加深了网络层的数量，对高光谱图像深层次的特征提取更充分，对不同的高光谱数据都有更好的适用性，模型的鲁棒性更强。式（7）中，输入通道注意力机制的数据尺寸为4×384×23×23，所以通道注意力机制权重矩阵的数据尺寸为384×4，用来对4个batch的384个通道分别赋予不同的权重；式（8）中，输入数据尺寸为4×384×23×23，空间注意力机制权重矩阵的尺寸为4×23×23，本文选取其中一个batch的权重进行展示。

4 结语

针对高光谱图像的自身特性和当前卷积神经网络对空谱特征利用不充分、参数量过大的问题，本文结合3D-CNN、2D-CNN、多尺度提取模块、注意力机制、深度可分离卷积与残差网络，提出了一种基于注意力机制的多尺度轻量化卷积神经网络模型（AMLW-CNN）。本文的主要贡献在于设计了空谱特征提取能力更优的模型，将参数量庞大的模型进行了参数和结构优化，而且引入了注意力机制，降低了计算复杂度，增强了模型对高光谱图像综合特征的提取能力，且具有良好的鲁棒性。在3个高光谱数据集上的实验结果验证了本文所提方法的有效性。在不同的数据集上，本文算法的分类精度都优于对比算法，达到了良好的分类效果。本文方法仍有改进空间，目前在监督学习方向取得了良好的效果，后续研究将向半监督方向拓展，并采用迁移学习、强化学习方法对网络进行更细致的优化。

图1AMLW-CNN网络框架图

Fig.1AMLW-CNN network framework diagram

下载: 全尺寸图片

图2Inception结构

Fig.2Inception structure

下载: 全尺寸图片

图3通道注意力机制模块

Fig.3Channel attention mechanism module

下载: 全尺寸图片

图4空间注意力机制模块

Fig.4Spatial attention mechanism module

下载: 全尺寸图片

图5深度可分离卷积计算过程

Fig.5Depth-separable convolution calculation process

下载: 全尺寸图片

图6普通卷积计算过程

Fig.6Ordinary convolution computing procedure

下载: 全尺寸图片

图7Indian Pines分类结果图

Fig.7The Indian Pines classification results

下载: 全尺寸图片

图8Salinas分类结果图

Fig.8The Salinas classification results

下载: 全尺寸图片

图9Pavia U分类结果图

Fig.9The Pavia U classification results

下载: 全尺寸图片

表1不同数量多尺度提取模块的模型分类精度

Tab.1Classification accuracy of models with different numbers of multiscale extraction modules

下载: 全尺寸图片

表2不同数量残差模块的模型分类精度

Tab.2Classification accuracy of the models with different number of residual modules

下载: 全尺寸图片

表3AMLW-CNN模型各模块参数设置

Tab.3Parameter settings of each module of the AMLW-CNN model

下载: 全尺寸图片

表4传统卷积模型各模块参数设置

Tab.4Parameter setting of each module of the traditional model

下载: 全尺寸图片

表5传统卷积模型和AMLW-CNN模型的分类精度

Tab.5Classification accuracy of traditional convolutional models and AMLW-CNN model

下载: 全尺寸图片

表6不同方法在Indian Pines数据集上的分类精度

Tab.6Classification accuracy of different methods on the Indian Pines dataset

下载: 全尺寸图片

表7不同方法在Salinas数据集上的分类精度

Tab.7Classification accuracy of different methods on the Salinas dataset

下载: 全尺寸图片

表8不同方法在Pavia U数据集上的分类精度

Tab.8Classification accuracy of different methods on the Pavia U dataset

下载: 全尺寸图片

图1AMLW-CNN网络框架图

Fig.1AMLW-CNN network framework diagram

图2Inception结构

Fig.2Inception structure

图3通道注意力机制模块

Fig.3Channel attention mechanism module

图4空间注意力机制模块

Fig.4Spatial attention mechanism module

图5深度可分离卷积计算过程

Fig.5Depth-separable convolution calculation process

图6普通卷积计算过程

Fig.6Ordinary convolution computing procedure

图7Indian Pines分类结果图

Fig.7The Indian Pines classification results

图8Salinas分类结果图

Fig.8The Salinas classification results

图9Pavia U分类结果图

Fig.9The Pavia U classification results

表1不同数量多尺度提取模块的模型分类精度

Tab.1Classification accuracy of models with different numbers of multiscale extraction modules

表2不同数量残差模块的模型分类精度

Tab.2Classification accuracy of the models with different number of residual modules

表3AMLW-CNN模型各模块参数设置

Tab.3Parameter settings of each module of the AMLW-CNN model

表4传统卷积模型各模块参数设置

Tab.4Parameter setting of each module of the traditional model

表5传统卷积模型和AMLW-CNN模型的分类精度

Tab.5Classification accuracy of traditional convolutional models and AMLW-CNN model

表6不同方法在Indian Pines数据集上的分类精度

Tab.6Classification accuracy of different methods on the Indian Pines dataset

表7不同方法在Salinas数据集上的分类精度

Tab.7Classification accuracy of different methods on the Salinas dataset

表8不同方法在Pavia U数据集上的分类精度

Tab.8Classification accuracy of different methods on the Pavia U dataset

图1AMLW-CNN网络框架图

Fig.1AMLW-CNN network framework diagram

图2Inception结构

Fig.2Inception structure

图3通道注意力机制模块

Fig.3Channel attention mechanism module

图4空间注意力机制模块

Fig.4Spatial attention mechanism module

图5深度可分离卷积计算过程

Fig.5Depth-separable convolution calculation process

图6普通卷积计算过程

Fig.6Ordinary convolution computing procedure

图7Indian Pines分类结果图

Fig.7The Indian Pines classification results

图8Salinas分类结果图

Fig.8The Salinas classification results

图9Pavia U分类结果图

Fig.9The Pavia U classification results

表1不同数量多尺度提取模块的模型分类精度

Tab.1Classification accuracy of models with different numbers of multiscale extraction modules

表2不同数量残差模块的模型分类精度

Tab.2Classification accuracy of the models with different number of residual modules

表3AMLW-CNN模型各模块参数设置

Tab.3Parameter settings of each module of the AMLW-CNN model

表4传统卷积模型各模块参数设置

Tab.4Parameter setting of each module of the traditional model

表5传统卷积模型和AMLW-CNN模型的分类精度

Tab.5Classification accuracy of traditional convolutional models and AMLW-CNN model

表6不同方法在Indian Pines数据集上的分类精度

Tab.6Classification accuracy of different methods on the Indian Pines dataset

表7不同方法在Salinas数据集上的分类精度

Tab.7Classification accuracy of different methods on the Salinas dataset

表8不同方法在Pavia U数据集上的分类精度

Tab.8Classification accuracy of different methods on the Pavia U dataset

AUDEBERT N, LE SAUX B, LEFÈVRE S. Deep learning for classification of hyperspectral data: A comparative review[J]. IEEE Geoscience and Remote Sensing Magazine,2019,7(2):159. DOI:10.1109/MGRS.2019.2912563

叶珍, 白璘, 何明一. 高光谱图像空谱特征提取综述[J]. 中国图象图形学报,2021,26(8):1737.YE Zen, BAI Lin, HE Mingyi. Review of spatial-spectral feature extraction of hyperspectral image[J]. Journal of Image and Graphics,2021,26(8):1737. DOI:10.11834/jig.210198

孔毅, 纪定哲, 程玉虎, 等. 基于光谱注意力图卷积网络的高光谱图像分类[J]. 电子与信息学报,2022,44:1.KONG Yi, JI Dingzhe, CHENG Yuhu,et al. Hyperspectral image classification based on spectral attentional graph convolution network[J]. Journal of Electronics and Information Science,2022,44:1. DOI:10.11999/JEIT220204

MELGANI F, BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing,2004,42(8):1778. DOI:10.1109/TGRS.2004.831865

LI W, PRASAD S, FOWLER J E,et al. Locality-preserving dimensionality reduction and classification for hyperspectral image analysis[J]. IEEE Transactions on Geoscience and Remote Sensing,2011,50(4):1185. DOI:10.1109/TGRS.2011.2165957

BLANZIERI E, MELGANI F. Nearest neighbor classification of remote sensing images with the maximal margin principle[J]. IEEE Transactions on Geoscience and Remote Sensing,2008,46(6):1804. DOI:10.1109/TGRS.2008.916090

LI J, BIOUCAS-DIAS J M, PLAZA A. Spectral-spatial hyperspectral image segmentation using subspace multinomial logistic regression and Markov random fields[J]. IEEE Transactions on Geoscience and Remote Sensing,2011,50(3):809. DOI:10.1109/TGRS.2011.2162649

SHI C, PUN C M. Multiscale super pixel-based hyperspectral image classification using recurrent neural networks with stacked autoencoders[J]. IEEE Transactions on Multimedia,2019,22(2):487. DOI:10.1109/TMM.2019.2928491

FANG Z, ROY K, MARES J,et al. Deep learning-based axial capacity prediction for cold formed steel channel sections using Deep Belief Network[J]. Structures,2021:2792. DOI:10.1016/j.istruc.2021.05.096

GUO Y, HAN S, CAO H,et al. Guided filter based deep recurrent neural networks for hyperspectral image classification[J]. Procedia Computer Science,2018,129:219. DOI:10.1016/j.procs.2018.03.048

ZHANG M, LI W, DU Q. Diverse region-based CNN for hyperspectral image classification[J]. IEEE Transactions on Image Processing,2018,27(6):2623. DOI:10.1109/TIP.2018.2809606

PAOLETTI M E, MORENO-ÁLVAREZ S, HAUT J M. Multiple attention-guidedcapsule networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2021,60:1. DOI:10.1109/TGRS.2021.3135506

ZHONG Z, LI J, CLAUSI D A,et al. Generative adversarial networks and conditional random fields for hyperspectral image classification[J]. IEEE Transactions on Cybernetics,2019,50(7):3318. DOI:10.1109/TCYB.2019.2915094

HONG D, GAO L, YAO J,et al. Graph convolutional networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2020,59(7):5966. DOI:10.1109/TGRS.2020.3015157

ZHU M, JIAO L, LIU F,et al. Residual spectral-spatial attention network for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2020,59(1):449. DOI:10.1109/TGRS.2020.2994057

ZHU K, CHEN Y, GHAMISI P,et al. Deep convolutional capsule network for hyperspectral image spectral and spectral-spatial classification[J]. Remote Sensing,2019,11(3):223. DOI:10.3390/rs11030223

ZHU L, CHEN Y, GHAMISI P,et al. Generative adversarial networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2018,56(9):5046. DOI:10.1109/TGRS.2018.2805286

HONG D, HAN Z, YAO J,et al. Spectral Former: Rethinking hyperspectral image classification with transformers[J]. IEEE Transactions on Geoscience and Remote Sensing,2022,60:1. DOI:10.1109/TGRS.2021.3130716

LI R, ZHENG S, DUAN C,et al. Classification of hyperspectral image based on double-branch dual-attention mechanism network[J]. Remote Sensing,2020,12(3):582. DOI:10.3390/rs12030582

HU W, HUANG Y, WEI L,et al. Deep convolutional neural networks for hyperspectral image classification[J]. Journal of Sensors,2015:258619. DOI:10.1155/2015/258619

XU L, ZHANG H, ZHAO M,et al. Integrating spectral and spatial features for hyperspectral image classification using low-rank representation[C]//2017 IEEE International Conference on Industrial Technology(ICIT). Malmö: IEEE,2017:1024. DOI:10.1109/icit.2017.7915502

YANG J, ZHAO Y, CHAN J C W,et al. Hyperspectral image classification using two-channel deep convolutional neural network[C]//2016 IEEE International Geoscience and Remote Sensing Symposium(IGARSS). Beijing, China,2016:5079. DOI:10.1109/IGARSS.2016.7730324

LI Y, ZHANG H, SHEN Q. Spectral-spatial classification of hyperspectral imagery with 3D convolutional neural network[J]. Remote Sensing,2017,9(1):67. DOI:10.3390/rs9010067

HE M, LI B, CHEN H. Multi-scale 3D deep convolutional neural network for hyperspectral image classification[C]//2017 IEEE International Conference on Image Processing(ICIP). Beijing, China: IEEE,2017:3904. DOI:10.1109/ICIP.2017.8297014

LEE H, KWON H. Contextual deep CNN based hyperspectral classification[C]//2017 IEEE International Geoscience and Remote Sensing Symposium(IGARSS). Fort Worth: IEEE,2017:3322. DOI:10.1109/IGARSS.2016.7729859

WOO S, PARK J, LEE J Y,et al. CBAM: Convolutional block attention module[C]//2018 European Conference on Computer Vision(ECCV). Cham: Spring,2018:3. DOI:10.1007/978-3-030-01234-2_1

IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//2015 International Conference on Machine Learning(ICML). New York: JMLR Workshop and Conference Proceedings,2015:448. DOI:10.48550/arXiv.1502.03167

HOWARD A G, ZHU M, CHEN B,et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL].(2017-04-14)[2025-11-10].https://arxiv.org/abs/1704.04861

ZHANG Y, YANG K, YUAN L. A hyperspectral image classification method with CNN based on attention enhanced spectral and spatial features[J]. Journal of Physics: Conference Series,2021,2006(1):012033. DOI:10.1088/1742-6596/2006/1/012033

Publication Statement

Journal Subscription

1 相关研究

2 基于注意力机制的轻量化网络

3 实验结果与分析

4 结语