动态门控扩散去噪与跨层注意力的多模态图像融合网络

doi:10.11918/202507016

doi: 10.11918/202507016

邸敬¹ ，霍婧婧¹ ，王鹤然¹ ，刘冀钊² ，廉敬¹

1. 兰州交通大学电子与信息工程学院，兰州 730070

2. 兰州大学信息科学与工程学院，兰州 730000

基金项目: 甘肃省自然科学基金(24JRRA231) ；国家自然科学基金(62061023) ；甘肃省科技计划重点研发计划(24YFFA024)

详细信息

作者简介

邸敬(1979—)，女，副教授，硕士生导师

通讯作者

霍婧婧，Hbingcheng@126.com

中图分类号: TP391

文献标识码: A

文章编号: 0367-6234(2026)05-0033-12

Dynamic gating diffusion denoising and cross-layer attention-based multimodal image fusion network

DI Jing¹ ， HUO Jingjing¹ ， WANG Heran¹ ， LIU Jizhao² ， LIAN Jing¹

1. School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070 , China

2. School of Information Science and Engineering, Lanzhou University, Lanzhou 730000 , China

摘要

针对去噪扩散模型在图像融合任务中难以适应不同噪声水平、普通残差块对特征的筛选能力有限的问题，本文构建了一种动态门控扩散去噪与跨层注意力的多模态图像融合网络。首先，设计并引入4组专家卷积核至动态特征提取器模块，根据输入内容动态组合出最优卷积核，对输入特征实现自适应处理；其次，提出了一种改进的门控特征选择模块来生成门控信号抑制无关信息，提升模型在不同噪声水平下的扩散去噪能力，实现对特征的精准控制；最后，使用R-Transformer块进行特征调整，通过构建的全局-局部空间注意力模块实现跨层特征融合，以生成纹理信息丰富、色彩保真度高的融合图像。在MSRS、RoadScene和Harvard三个数据集上的实验结果表明，与近年来图像融合领域中9种具有代表性的重要方法相比，本文方法的7种客观评价指标平均提升了5.11%~15.93%。本文方法在纹理细节保持及解剖结构完整性保留等方面均优于其他方法，符合人眼视觉特性，能够很好地处理各种光照环境场景和医学影像诊断场景下的多模态图像融合任务。

关键词

多模态图像融合 / 扩散模型 / 门控特征选择模块 / 跨层注意力融合模块 / 专家卷积核

Abstract

To address the challenges that denoising diffusion models struggle to adapt to varying noise levels and conventional residual blocks have limited feature selection capability in image fusion tasks, this paper constructs a multimodal image fusion network integrating dynamic gating diffusion denoising and cross-layer attention. Firstly, four groups of expert convolution kernels are designed and incorporated into the dynamic feature extractor module. The optimal convolution kernels are dynamically assembled based on input content, enabling adaptive processing of input features. Secondly, an improved gated feature selection module is proposed to generate gating signals that suppress irrelevant information, enhance the model’s diffusion denoising capability under different noise levels, and achieve precise feature control. Finally, R-Transformer blocks are adopted for feature adjustment. A global-local spatial attention module is constructed to realize cross-layer feature fusion, thereby generating fused images with rich texture information and high color fidelity. Experimental results on the MSRS, RoadScene, and Harvard datasets demonstrate that compared with 9 representative state-of-the-art methods in the field of image fusion in recent years, the proposed method achieves an average improvement of 5.11% to 15.93% across 7 objective evaluation metrics. The proposed method outperforms other counterparts in texture detail preservation and anatomical structure integrity maintenance, conforms to human visual perception characteristics, and can effectively handle multimodal image fusion tasks in scenarios such as various lighting environments and medical image diagnosis.

Keywords

multimodal image fusion / diffusion models / gated feature selection module / cross-layer attention fusion module / expert convolutional kernels

1 图像融合方法 1.1 网络总体框架 1.2 动态门控扩散去噪模块 1.2.1 动态特征提取器模块 1.2.2 门控特征选择模块 1.3 跨层注意力融合模块 2 实验结果与分析 2.1 实验概况与数据说明 2.1.1 实验平台及参数设置 2.1.2 数据集 2.1.3 对比算法及评价指标 2.2 图像融合对比实验 2.2.1 MSRS数据集实验验证 2.2.2 Harvard数据集实验验证 2.2.3 RoadScene数据集主客观评价 2.3 消融实验 3 结论

图像融合技术旨在通过特定算法将多幅来源不同、模态不同的图像信息进行结合，生成一幅包含更多互补信息、更符合人类视觉感知的新图像。其核心目标是整合源图像中的互补信息与重复出现的相似信息，提升图像的清晰度、语义丰富度和诊断分析价值^[1-5]。图像融合的典型应用场景分为红外与可见光图像融合^[6-8]和医学图像融合^[9-10]。其中，红外与可见光图像融合的目标是融合红外图像的热辐射信息与可见光图像的纹理细节，为安防、军事侦察、道路交通等提供便利；医学图像融合的目标为融合医学影像的内部结构信息与功能代谢信息，以辅助肿瘤定位、病情诊断。

基于深度学习的图像融合算法因其强大的特征提取能力获得了广泛应用，算法模型架构主要包括卷积神经网络（CNN）模型、基于Transformer结构的模型和生成对抗网络（GAN）模型等。CNN通过局部感受野机制实现图像层级特征的高效提取，这一特性也使其拥有了良好的空间建模能力。Prabhakar等^[11]提出深度特征融合网络DeepFuse，该网络是利用深度卷积网络从源图像的亮度通道中提取信息，因未充分提取源图像信息，融合图像效果不佳。Transformer类的深度学习算法擅长建模长距离依赖关系，通过自注意力机制捕捉全局上下文信息。Ma等^[12]提出SwinFusion网络，其跨域注意力设计可捕获整合同模态长距离依赖、感知连接跨模态语义关联，以提升多模态融合效果，但在模态差异极大的场景中融合图像会出现细节模糊等问题。GAN通过生成器和判别器的对抗训练，实现高质量数据生成。Xi等^[13]提出了一种结合多尺度注意力网络与期望最大化算法的红外-可见光图像融合生成对抗网络（generative adversarial network with multiscale attention network and expectation maximization algorithm，EMA-GAN）用于图像融合，EM算法有助于解决红外与可见光图像融合中标签缺失的问题，但GAN面临训练不稳定的挑战，并且生成效果易受数据分布影响。

近年来，去噪扩散概率模型备受关注，其具有良好的数学可解释性，且图片生成过程稳定可控，在图像融合领域得到广泛应用。Zhao等^[14]提出了多模态图像融合去噪扩散模型（denoising diffusion model for multi-modality image fusion，DDFM），该模型借助去噪扩散概率模型（denoising diffusion probabilistic models，DDPM）的生成先验和EM算法推理，解决了GAN训练不稳定和可解释性不足的问题，但此模型依赖预训练生成模型，导致模型泛化能力差。为解决现有红外与可见光图像融合方法无法直接处理多通道数据的问题，Yue等^[15]提出了基于扩散模型的红外-可见光高色彩保真度图像融合模型（toward high color fidelity with diffusion models，Dif-Fusion），通过隐空间多通道扩散过程直接聚合红外与可见光的多源特征，显著提升色彩保真度与纹理强度的保留效果，但在低光照可见光图像或者高噪声红外图像中，扩散过程可能出现过度平滑细节的问题。为解决扩散模型在图像融合中缺乏真实标签、难以直接应用的问题，Yi等^[16]提出了基于融合知识先验扩散模型的多模态图像融合模型（multi-modality image fusion via diffusion model with fusion knowledge prior，Diff-IF），该模型可有效保留视觉信息与弱纹理细节，但其依赖目标搜索确定的先验分布，对复杂或未见模态组合泛化性不足。现有多模态图像融合方法无法处理源图像中的曝光异常以及目标显著性不足，Zhang等^[17]提出了基于文本调制扩散模型的交互式多模态图像融合框架（interactive multi-modal image fusion framework based on text-modulated diffusion model，Text-DiFuse），通过扩散过程集成特征级信息融合，但该模型依赖文本输入的准确性与零样本模型的泛化能力，对无文本描述或语义模糊的融合场景处理效果不佳。Gao等^[18]提出了基于相位转移扩散模型的光学错觉隐藏图像生成模型（free lunch for generating optical illusion hidden pictures with phase-transferred diffusion model，PTDiffusion），其通过在去噪过程中移植扩散特征的相位谱，生成具有隐藏视觉线索的视错觉图像，但由于免训练特性，对复杂图像的处理受限。Wei等^[19]提出了基于一步扩散模型的多模态图像配准模型（multimodal image registration based one step diffusion model，OSDM-MReg），通过一步扩散以及多尺度配准网络来融合特征，但在极端场景适应性上存在局限。

针对以上扩散模型在图像融合任务中难以适应不同噪声水平及普通残差块对特征的筛选能力有限的问题，本文提出一种动态门控扩散去噪与跨层注意力的多模态图像融合网络。通过动态门控扩散去噪模块提取图像特征，对输入特征进行自适应处理，以增强这些特征的表达并保留细节信息。同时，本文采用残差连接的方式缓解梯度消失问题，从而提取更全面的全局语义信息和局部细节特征。通过跨层注意力模块进行多阶段的特征融合和重建，逐步增强图像细节并抑制噪声，生成既包含丰富纹理信息又突出热辐射目标的高质量融合图像。

1 图像融合方法

1.1 网络总体框架

在UNet结构中，传统卷积层参数固定，难以适应不同噪声水平和复杂特征分布，且普通残差块对特征的选择能力有限，对信息流的控制效果不佳。因此，本文提出一种动态门控扩散去噪与跨层注意力的多模态图像融合网络，网络总体架构见图1。首先，将4组专家卷积核引入动态特征提取器模块，通过1×1卷积门控网络生成专家权重，根据输入内容动态组合最优卷积核，对输入特征实现自适应处理。其次，利用门控特征选择模块生成的门控信号过滤无关特征，增强关键信息的提取与保留能力。最后，通过跨层注意力模块中的R-Transformer块进行特征调整，并利用全局-局部空间注意力机制实现全局与局部特征的有效融合，从而避免高频信息丢失，生成兼具底层细节与高层语义特征的融合图像。

图1网络总体架构

Fig.1General network framework diagram

1.2 动态门控扩散去噪模块

在扩散模型中，数据生成过程被建模为逐步加噪的反向去噪过程。前向过程通过高斯扰动将干净图像x₀扩散为不同噪声水平下的中间状态x_t，其计算公式为

x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ε, ε \sim N (0,1)

(1)

式中

控制噪声随时间的积累。反向过程目标是通过神经网络 ε_θ（x_t，t）预测噪声，并逐步恢复数据，其计算公式为

x_{t - 1} = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ε_{t} (x_{t}, t)) + σ_{t} z, z \sim N (0, I)

(2)

由于x_t在不同时间步t的特征分布变化不同，且包含不同程度的噪声扰动，因此网络ε_θ需具备动态适应性，以结合当前时间步信息实现更精准的噪声去除。

为此，本文提出了动态门控扩散去噪模块，图2为动态门控扩散去噪模块内部结构。首先，输入图像进入动态特征提取器模块，其使用权重融合后的卷积核动态适应不同时间下的特征处理需求，以选择重要特征通道；然后，进入门控特征选择模块，该模块通过门控信号对特征通道进行加权选择，强调关键信息并过滤无关特征。如图2（b）动态门控扩散去噪模块所示，上采样和下采样过程各包含4个阶段，每个阶段均由一个动态特征提取器模块和一个门控特征选择模块顺序组成，在编码路径的最深层，包含一个门控特征选择模块，进一步处理下采样的最深层次特征，为后续上采样提供基础。通过动态特征提取器与门控特征选择模块，该结构自适应地增强了网络从局部细节到全局结构的特征提取与建模能力，提升了扩散过程中不同噪声水平下的去噪能力以及特征提取能力。

1.2.1 动态特征提取器模块

普通卷积的通道变换依赖固定设计且卷积核权重固定，难以处理复杂噪声分布和多尺度特征，对图像特征提取效果不佳。动态特征提取器的核心思想是引入多个专家卷积核，根据输入内容为每个样本自适应生成一组专属的卷积权重，从而增强模型的特征提取能力。

如图2（a）动态特征提取器模块所示，首先，通过通道变换层将输入特征图统一投影到特定通道，形成统一维度便于后续不同专家共享处理。随后，门控模块（Gate）通过卷积层和全局平均池化对各专家进行评分以确定权重，结合softmax函数得到每个样本在不同专家上的概率分布。在此基础上，利用已知的专家权重对多个专家卷积核实施加权融合，最终得到适配每个样本的动态卷积核，其计算公式为

W^{(b)} = \overset{M}{\underset{m = 1}{Σ}} α_{b, m} \cdot W^{(m)}

(3)

式中：W^（^b^）为第b个样本所使用的最终动态卷积核; M为专家块数量，该网络使用的专家块数量为M=4，每个专家拥有一套独立的卷积核; α_b_，_m为第b个样本对第m个专家的权重系数，表示该样本在融合卷积核时，对第m个专家的信任度; W^（^m^）为第m个专家的卷积核参数，维度与W^（^b^）相同。

图2动态门控扩散去噪模块内部结构

Fig.2Internal architecture of the dynamic gated diffusion denoising module

得到动态卷积核后，将输入特征图展开为一系列小块，即局部感受野区域，而后使用einsum将每个样本与其专属的卷积核实现逐位置滑窗卷积，其计算公式为

y_{l}^{(b)} = \overset{e}{\underset{c, i, j}{Σ}} (W_{o, c, i, j}^{(b)} \cdot x_{l, c, i, j}^{(b)}) + b_{o}^{(b)}

(4)

式中：

y_{l}^{（ b ）}

为第b个样本的第l位置的输出，表示输出特征图上一个像素点的某个通道值，

\overset{e}{\underset{}{Σ}}

表示对输入通道c及卷积核空间位置（i，j）进行求和，

b_{o}^{（ b ）}

为第b个样本的第o个输出通道的偏置项。而后使用式（5）和式（6）恢复卷积输出格式：

H_{out} = \frac{H + 2 \cdot p a d - K}{stride} + 1

(5)

W_{out} = \frac{W + 2 \cdot p a d - K}{stride} + 1

(6)

式中：H，W为输入特征图的高、宽，K为卷积核的尺寸，pad为对输入边缘的补零像素数（pad=K//2），保持输入输出大小一致。

最后将所有局部结果拼接得到输出特征图。通过以上步骤，每个样本根据内容选择专家，对多个专家卷积核线性加权融合，再选择重要特征通道，增强模型对不同输入的适应能力与表达力，提高特征提取能力。

1.2.2 门控特征选择模块

输入特征经动态特征提取器模块处理后进入门控特征选择模块，通过门控机制抑制无关特征，每个Token都有一个对应的门控信号，用于控制这个Token的输出是否被放大、抑制或归零。门控特征选择模块如图3所示，该模块首先对输入张量进行分组归一化，提升训练稳定性；而后通过卷积层将通道数扩展为2倍，并沿通道维度将特征拆分为两部分，第1部分经3×3卷积后作为主信息h₁，第2部分使用深度可分离卷积生成空间门控掩膜，以此来关注重要区域，同时使用全局平均池化和全连接层生成通道注意力，而后将空间信息与通道信息相乘，再经Sigmoid函数压缩生成门控权重，得到门控信息h₂，h₁和h₂逐元素相乘实现门控单元的特征筛选。将噪声时间嵌入t_emb通过仿射变换调整特征，对门控后的特征进行缩放和平移，注入噪声条件信息，如公式（7）所示

h = γ (t_{e m b}) \cdot h + β (t_{e m b})

(7)

然后对结果再次分组归一化并应用Dropout正则化防止过拟合，通过卷积层恢复原始输出通道数，完成特征提取。最后将处理后的特征与输入进行残差相加，解决梯度消失问题，输出计算公式为

Output = h + W_{residual} (x)

(8)

动态门控扩散去噪模块动态选择重要特征通道，过滤无关特征，有效缓解了高层语义建模中特征选择粗糙、关键信息易被噪声干扰的问题，提升了特征表达的针对性与有效性。

图3门控特征选择模块

Fig.3Gated feature selection module

1.3 跨层注意力融合模块

为提取更全面的全局语义信息和局部细节特征，本文设计了跨层注意力融合模块，如图4所示。双分支输入图像使用带有步长小于卷积核大小的卷积层（Patch-Embed层），使得提取的图像块之间存在重叠区域，从而更好地捕捉局部信息。模型采用双阶段的逐步增强策略，第1阶段中，输入图像通过带有条件调制的R-Transformer块进行初步特征提取与调整，以捕获多模态图像间的浅层结构信息，而后通过全局-局部空间注意力模块实现跨分支的特征交互与融合，动态分配不同模态的重要性权重。在第2阶段，融合后的特征被进一步送入新的R-Transformer块中，强化深层语义信息的建模能力，而后再次通过全局-局部空间注意力模块进行特征整合，从更大的感受野中融合结构与上下文信息，使模型从浅层到深层逐步提升对多模态图像的理解与表达能力。同时，通过位置编码与多层感知机处理时间步长信息可得到噪声嵌入向量，该向量通过双阶段逐步增强中R-Transformer块后的条件特征变换模块（FeatureWiseAffine），在时间步嵌入向量T对特征图缩放与偏移的控制下，实现对噪声条件的感知。两个R-Transformer块通过自注意力，增强跨层拼接的多尺度特征表达。第1次拼接将上采样后的高级语义特征与第1阶段的低级细节特征拼接，使得特征兼具语义深度与细节精度；第2次拼接将解码器输出特征与初次融合并调整尺寸的特征拼接，强化特征表达并保留中间信息，以恢复图像细节。最后，通过Transformer块对融合特征进一步优化，输出同时保留多模态细节信息与热辐射特征的高质量融合图像。

图4跨层注意力融合模块

Fig.4Cross-layer attention fusion module

传统方法对不同层次的特征直接拼接或相加，未考虑通道和空间维度的重要性差异。跨层注意力融合模块实现轻量级多尺度特征融合，通过全局-局部双路特征提取、通道注意力校准和空间注意力增强三阶段处理，融合来自不同层的特征图。阶段1通过全局平均池化压缩空间信息，1×1卷积降维，上采样提取全局信息，而后通过分组卷积和GELU激活函数增强非线性以提取局部特征，具体如式（9）~（11）所示：

F_{global} = U p s a m p l e ({C o n v}_{1 \times 1} (G A P (F_{t})))

(9)

F_{local} = G E L U (G r o u p C o n v (F_{t}))

(10)

F_{concat} = C o n c a t (F_{t}, F_{global}, F_{local})

(11)

式中F_t为原始输入特征。拼接原始、全局、局部特征后，阶段2通过1×1卷积和Sigmoid生成通道注意力图，对原始特征进行通道注意力加权，来完成通道校准，如式（12）和式（13）所示：

M_{c} = σ ({C o n v}_{1 \times 1} (F_{concat}))

(12)

F_{channel} = M_{c} ⊙ F_{t}

(13)

式中：M_c为注意力权重，σ代表Sigmoid函数，⊙表示逐通道加权。阶段3在对融合特征应用多头自注意力后，与原始特征进行残差相加，实现空间注意力增强。如式（14）~（16）所示：

\begin{matrix} A t t n (F_{channel}) = s o f t m a x (\frac{F_{channel} W_{Q} {(F_{channel} W_{K})}^{T}}{\sqrt{d_{k}}}) \cdot \\ F_{channel} W_{V} \end{matrix}

(14)

F_{spatial} = N o r m (F_{channel} + A t t n (F_{channel}))

(15)

F_{output} = F_{spatial}

(16)

全局-局部空间注意力模块融合局部与全局信息，避免了高频信息丢失，通道注意力抑制噪声主导的通道，空间注意力强化有效区域，通过轻量级多尺度特征融合与注意力机制，在细节恢复与计算效率方面，优于传统卷积和普通Transformer架构。

2 实验结果与分析

2.1 实验概况与数据说明

2.1.1 实验平台及参数设置

实验硬件平台操作系统为 Windows11，硬件配置为3th Gen Intel（R）Core（TM）i9-13900HX 2.20 GHz处理器和RTX 4070Ti16G GPU。实验训练阶段和测试阶段均在Pytorch框架下实现，软件环境为PyTorch 1.13.1+cu117、CUDA 12.7。训练过程中，优化器采用Adam，初始学习率为0.000 1，动态特征提取器模块中专家卷积块的数量为N=4。

2.1.2 数据集

在训练阶段，采用多光谱道路场景MSRS数据集中的1 083对数据作为训练集。在测试阶段，分别从Harvard数据集、MSRS数据集和RoadSence数据集中选择93对、361对和30对图像进行实验验证。

2.1.3 对比算法及评价指标

为验证本文融合网络的性能，选择了9种典型的深度学习算法与其进行对比，即SeAFusion^[20]、MUFusion^[21]、U2Fusion^[22]、DDFM、MetaFusion^[23]、GIFusion^[24]、BTSFusion^[25]、SDCFusion^[26]和MLFuse^[27]融合算法。

为评价网络模型的有效性，选择了7种客观评价指标来衡量融合结果，包括信息熵^[28]（EN）、互信息^[29]（MI）、基于结构相似性^[30]（SSIM）、峰值信噪比^[31]（PSNR）、空间频率^[32]（SF）、边缘强度^[33]（Q^AB/F）及相关系数^[34]（CC）。其中，EN是衡量图像信息量的重要指标，数值越大说明融合图像包含信息越丰富。MI反映融合图像和源图像之间的信息重叠度，互信息越大，融合质量越好。SSIM用于评估融合图像和源图像的结构一致性，数值越接近1，融合效果越好。PSNR通过衡量图像有效信息与噪声之间的比率来反映图像是否失真，数值越大，图像融合质量越好。SF用于衡量图像灰度的变化，数值越大，图像越清晰，融合质量越好。Q^AB/F用于量化边缘信息传递能力，数值越大，边缘保留越完整。CC用于衡量融合图像与源图像的空间线性相关程度，其值越接近1或者-1，表示融合图像包含源图像信息越多，融合效果越好。

2.2 图像融合对比实验

2.2.1 MSRS数据集实验验证

在MSRS数据集中选取白天和夜间共6组具有代表性的红外与可见光图像场景，对10种方法进行主观和客观比较。图5为MSRS数据集6组场景的融合结果，场景一、场景二、场景三、场景四为白天景象，场景五、场景六为夜间景象。通过图5可以看到，SeAFusion算法引入边缘注意力机制，更好地保留了可见光图像中的边缘和纹理细节信息，但当图像中不同区域之间的亮度、颜色差异较小时，易导致目标与背景难以区分，如场景二的树木部分。U2Fusion算法可以捕捉图像细节信息，但存在纹理细节模糊的问题，使图像色彩保真度严重降低。MUFusion算法虽然信息融合全面，但对边缘细节纹理的保护效果不佳，如场景五灯的边缘。DDFM算法融合后图像具有目标凸显性，但合成图像视觉上较暗，导致融合图像缺失部分信息。MetaFusion算法对图像中的小目标或存在遮挡的场景处理存在不足，融合结果的目标显著性下降，如场景三中的广告牌。GIFusion算法使用的对抗训练容易陷入模式崩溃，导致融合结果出现色彩失真，如场景四中的楼房。BTSFusion算法未能有效保留红外图像中较微弱的热辐射信息，对场景六中的指示牌边缘处理不够清晰。SDCFusion算法对分割任务依赖严重，分割网络的滞后可能导致融合结果与实际场景的时间错位，场景四中对移动的车辆融合效果不佳。MLFusion算法聚焦于像素层面的特征融合，却对物体类别等高层语义信息的利用不够充分。本文算法无论在白天还是夜间场景，融合图像均能自适应保留有效信息，目标与背景的边界过渡平滑，无明显伪影或色彩断层，关键目标如车辆、行人的热信号被精准强化，即使处于树林、阴影等复杂背景中仍能够快速被识别。

图5MSRS数据集6组场景的融合结果

Fig.5Fusion results of six scenarios from the MSRS dataset

6组源图像的融合结果表明，本文提出的融合网络生成的图像兼具高层语义信息与底层纹理细节，色彩还原度高且贴近真实场景。为了使融合结果更具说服力，本文进一步选取MSRS数据集中30对图像客观评价指标的均值对融合结果进行分析。表1展示了不同融合算法在MSRS数据集上的定量结果比较，可以看到，本文算法在EN、MI、SSIM、PSNR、SF、Q^AB/F和CC等客观评价指标中均取得了较好的结果，在MI、PSNR、Q^AB/F、CC上取得最优结果，最优的MI结果表明，融合算法有效提取了可见光图像的纹理细节和红外图像的热目标信息，整合了这些互补信息，提升了图像的综合可读性。最优的PSNR结果说明，融合算法在保留源图像细节的同时，有效抑制了噪声、模糊或伪影等失真。最优的Q^AB/F表明，融合算法能够有效提取出源图像中的轮廓、纹理、边界信息。最优的CC结果表明，融合图像保留了源图像的整体亮度、对比度和结构特征，视觉效果更佳。因此，通过主观评估与客观指标分析，本文算法的融合图像在纹理细节、边缘分布等底层特征，结构、语义等高层特征方面优于其他对比算法。

表1不同融合算法在MSRS数据集上的定量结果比较

Tab.1Quantitative comparison of different fusion algorithms on the MSRS dataset

2.2.2 Harvard数据集实验验证

为了进一步验证本文算法的优越性，从Harvard测试集中选取30组包含MRI-CT、MRI-PET和MRI-SPECT的具有代表性的脑部医学图像进行分析，医学图像融合目标是整合CT/MRI的解剖结构与PET/SPECT的代谢功能的互补信息，提升病灶辨识度、诊断准确性，为临床提供更全面的决策依据。图6为不同融合算法在Harvard数据集上的定性结果比较，通过图6可以看出，U2Fusion、MUFusion、SwinFusion算法淡化了微小病灶边缘、纹理，无法有效突出CT中高密度对比增强区域。DDFM算法融合后细节易模糊，对不同模态特征权重分配不够合理，过度强化CT的轮廓信息，导致MRI中软组织纹理细节被弱化，无法清晰呈现病灶与周围软组织的关系。MetaFusion算法融合后微小结构边缘模糊，与周围组织对比度降低，不利于分析病灶。GIFusion算法无法保留原始图像的强度分布，色彩保真度欠佳，丢失了部分结构信息。TarDAL算法^[35] 难以精准权衡代谢功能信息与解剖结构信息，使得MRI图像里软组织的纹理、边界等关键特征被弱化。SDCFusion算法对脑部微小血管、神经纤维等精细结构处理不佳，融合后易出现细节模糊、丢失。MLFusion算法的动态调整能力不足，对于解剖结构复杂的部位，MRI的细节信息被PET的代谢信号干扰，导致解剖结构显示不清。而本文算法有效抑制了噪声与伪影，保留了关键解剖信息与代谢功能信息，在细节纹理、边缘清晰度及信息保真度上均优于其他对比算法。此外，选取了EN、MI、SSIM、PSNR、SF、Q^AB/F和CC对这些先进方法进行定量评估，表2为不同融合算法在Harvard数据集上的定量结果比较。如表2所示，本文方法在所有对比算法的大多数评价指标上均取得了最优或次优结果，优于其他对比方法，且在指标MI、SSIM、Q^AB/F、CC上取得最优结果，表明本文方法在细节纹理、边缘信息保留以及可视化方面优于其他模型方法。

图6不同融合算法在Harvard数据集上的定性结果比较

Fig.6Qualitative comparison of different fusion algorithms on the Harvard dataset

表2不同融合算法在Harvard数据集上的定量结果比较

Tab.2Quantitative comparison of different fusion algorithms on the Harvard dataset

2.2.3 RoadScene数据集主客观评价

本文选取RoadScene数据集中的20组源图像进行泛化性测试，图7为不同融合算法在RoadScene数据集上的定性结果比较，可以看到SeAfusion、MetaFusion算法亮度表现良好，但其可见光图像的纹理细节、结构边缘等信息未能清晰展现，如树叶边缘。U2Fusion、DDFM、GIFusion、MLFusion算法过度侧重红外图像信息，可见光图像中的关键细节，如树叶、山脉的轮廓信息模糊。MUFuison算法纹理细节模糊，汽车边缘识别不清。SDCFusion、BTSFusion算法呈现了可见光图像的纹理细节以及红外图像的显著信息，整体效果较好，但融合图像色彩欠佳。从视觉对比结果可以看出，本文算法在清晰还原场景纹理细节的同时，有效保留了源图像的色彩信息，在整体视觉质量上展现出显著优势。表3为不同融合算法在RoadScene数据集上的定量结果比较，可以看到，本文算法在MI、SSIM、Q^AB/F、CC等指标上均表现优异，EN、SF、PSNR偏低，是因为本文方法更关注红外显著信息和可见光细节纹理细节，但EN指标主要衡量图像的亮度信息，SF指标则反映图像中像素灰度值的变化，而PSNR主要关注图像整体的像素值差异。对比分析可知，本文融合算法纹理清晰，色彩保真度高，在目标显著性和整体视觉效果方面均表现更优。

图7不同融合算法在RoadScene数据集上的定性结果比较

Fig.7Qualitative comparison of different fusion algorithms on the RoadScene dataset

表3不同融合算法在RoadScene数据集上的定量结果比较

Tab.3Quantitative comparison of different fusion algorithms on the RoadScene dataset

2.3 消融实验

为验证本文算法所提各个模块的有效性，选取Harvard数据集中20组图像进行验证，设计了6组消融实验。去掉全局-局部空间注意力模块，其余模块不变，记为DFE+GCFS；去掉门控特征选择模块，其余模块不变，记为DFE+GLSA；去掉动态特征提取器模块，其余模块不变，记为GCFS+GLSA；将动态特征提取器模块使用的专家卷积块设置为N=3，其余模块不变，记为DFE_3；将动态特征提取器模块使用的专家卷积块设置为N=5，其余模块不变，记为DFE_5。实验验证了使用专家卷积块N=4效果最佳。使用动态特征提取器模块提取特征，门控特征选择模块增强特征表达，全局-局部空间注意力模块生成融合图像，用于观察完整模型架构下的融合图像，记为ALL。

为直观对比不同模块对融合效果的影响，本文随机选取Harvard数据集两组典型场景的融合结果进行主观分析，图8为上述6种消融实验的定性结果对比。由图8可以看出：去掉全局-局部空间注意力模块（DFE+GCFS），融合图像纹理细节信息模糊；去掉门控特征选择模块（DFE+GLSA），图像变暗，可以看到融合图像背景细节信息丢失；去掉动态特征提取器模块（GCFS+GLSA），导致网络关注显著信息的能力下降；将动态特征提取器模块使用的专家卷积块设置为N=3（DFE_3），融合图像变暗，红外信息缺失；将动态特征提取器模块使用的专家卷积块设置为N=5（DFE_5），融合图像对比度不佳。综上所述，本文所提模型有效保留了纹理细节信息，同时视觉效果更佳。此外，选取EN、MI、SSIM、PSNR、SF、Q^AB/F和CC指标作为消融实验的客观评价指标，表4为消融实验中6种不同网络结构的客观评价指标。由表4可以看到，本文算法在融合图像中既很好地保留了显著目标，同时又增强了图像中的细节和纹理信息，且更符合人眼视觉。

图8消融实验中6种不同网络结构的定性结果比较

Fig.8Qualitative comparison of six different network structures in ablation experiments

表4消融实验中6种不同网络结构的客观评价指标

Tab.4Objective evaluation metrics for six different network structures in ablation experiments

3 结论

1）本文设计了一种动态门控扩散去噪与跨层注意力的多模态图像融合网络，通过动态门控扩散去噪模块增强关键信息的提取能力，采用跨层注意力融合模块融合跨层信息，有效提升扩散过程中不同噪声水平下的去噪能力以及特征提取能力，实现了高质量多模态图像融合。

2）设计了动态特征提取器和门控特征选择模块，利用动态特征提取器中动态卷积核实现输入特征自适应处理，利用门控特征选择模块产生的门控信号控制信息流，增强关键信息的提取与保留能力，完成图像的特征提取任务。

3）构建了跨层注意力融合模块，通过全局-局部空间注意力模块进行跨层特征提取和融合，融合局部与全局信息，避免了高频信息丢失。

4）在MSRS和RoadScene以及Harvard数据集上的实验结果表明，本文方法在EN、MI、SSIM、PSNR、SF、Q^AB/F和CC等客观评价指标上，相较于其他9种高水平方法平均提高了5.11%、52.84%、16.77%、13.90%、8.58%、29.66%、15.93%，证明本文算法不仅保留了丰富的纹理细节信息以及完整的解剖结构信息，同时还拥有高清晰度，展现出较强的泛化能力，能够很好地处理各种光照环境场景和医学影像诊断场景下的图像融合任务。

图1网络总体架构

Fig.1General network framework diagram

下载: 全尺寸图片

图2动态门控扩散去噪模块内部结构

Fig.2Internal architecture of the dynamic gated diffusion denoising module

下载: 全尺寸图片

图3门控特征选择模块

Fig.3Gated feature selection module

下载: 全尺寸图片

图4跨层注意力融合模块

Fig.4Cross-layer attention fusion module

下载: 全尺寸图片

图5MSRS数据集6组场景的融合结果

Fig.5Fusion results of six scenarios from the MSRS dataset

下载: 全尺寸图片

图6不同融合算法在Harvard数据集上的定性结果比较

Fig.6Qualitative comparison of different fusion algorithms on the Harvard dataset

下载: 全尺寸图片

图7不同融合算法在RoadScene数据集上的定性结果比较

Fig.7Qualitative comparison of different fusion algorithms on the RoadScene dataset

下载: 全尺寸图片

图8消融实验中6种不同网络结构的定性结果比较

Fig.8Qualitative comparison of six different network structures in ablation experiments

下载: 全尺寸图片

表1不同融合算法在MSRS数据集上的定量结果比较

Tab.1Quantitative comparison of different fusion algorithms on the MSRS dataset

下载: 全尺寸图片

表2不同融合算法在Harvard数据集上的定量结果比较

Tab.2Quantitative comparison of different fusion algorithms on the Harvard dataset

下载: 全尺寸图片

表3不同融合算法在RoadScene数据集上的定量结果比较

Tab.3Quantitative comparison of different fusion algorithms on the RoadScene dataset

下载: 全尺寸图片

表4消融实验中6种不同网络结构的客观评价指标

Tab.4Objective evaluation metrics for six different network structures in ablation experiments

下载: 全尺寸图片

图1网络总体架构

Fig.1General network framework diagram

图2动态门控扩散去噪模块内部结构

Fig.2Internal architecture of the dynamic gated diffusion denoising module

图3门控特征选择模块

Fig.3Gated feature selection module

图4跨层注意力融合模块

Fig.4Cross-layer attention fusion module

图5MSRS数据集6组场景的融合结果

Fig.5Fusion results of six scenarios from the MSRS dataset

图6不同融合算法在Harvard数据集上的定性结果比较

Fig.6Qualitative comparison of different fusion algorithms on the Harvard dataset

图7不同融合算法在RoadScene数据集上的定性结果比较

Fig.7Qualitative comparison of different fusion algorithms on the RoadScene dataset

图8消融实验中6种不同网络结构的定性结果比较

Fig.8Qualitative comparison of six different network structures in ablation experiments

表1不同融合算法在MSRS数据集上的定量结果比较

Tab.1Quantitative comparison of different fusion algorithms on the MSRS dataset

表2不同融合算法在Harvard数据集上的定量结果比较

Tab.2Quantitative comparison of different fusion algorithms on the Harvard dataset

表3不同融合算法在RoadScene数据集上的定量结果比较

Tab.3Quantitative comparison of different fusion algorithms on the RoadScene dataset

表4消融实验中6种不同网络结构的客观评价指标

Tab.4Objective evaluation metrics for six different network structures in ablation experiments

图1网络总体架构

Fig.1General network framework diagram

图2动态门控扩散去噪模块内部结构

Fig.2Internal architecture of the dynamic gated diffusion denoising module

图3门控特征选择模块

Fig.3Gated feature selection module

图4跨层注意力融合模块

Fig.4Cross-layer attention fusion module

图5MSRS数据集6组场景的融合结果

Fig.5Fusion results of six scenarios from the MSRS dataset

图6不同融合算法在Harvard数据集上的定性结果比较

Fig.6Qualitative comparison of different fusion algorithms on the Harvard dataset

图7不同融合算法在RoadScene数据集上的定性结果比较

Fig.7Qualitative comparison of different fusion algorithms on the RoadScene dataset

图8消融实验中6种不同网络结构的定性结果比较

Fig.8Qualitative comparison of six different network structures in ablation experiments

表1不同融合算法在MSRS数据集上的定量结果比较

Tab.1Quantitative comparison of different fusion algorithms on the MSRS dataset

表2不同融合算法在Harvard数据集上的定量结果比较

Tab.2Quantitative comparison of different fusion algorithms on the Harvard dataset

表3不同融合算法在RoadScene数据集上的定量结果比较

Tab.3Quantitative comparison of different fusion algorithms on the RoadScene dataset

表4消融实验中6种不同网络结构的客观评价指标

Tab.4Objective evaluation metrics for six different network structures in ablation experiments

ZHOU M, ZHANG Y, XU X,et al. Edge-enhanced dilated residual attention network for multimodal medical image fusion[C]//2024 IEEE International Conference on Bioinformatics and Biomedicine(BIBM). Lisbon, Portugal: IEEE,2024:4108. DOI:10.1109/BIBM62325.2024.10821967

ZHU Y, XIAO M, ROBBINS D,et al. Walking representation and simulation based on multi-source image fusion and multi-agent reinforcement learning for gait rehabilitation[J]. Artificial Intelligence in Medicine,2024,156:102945. DOI:10.1016/j.artmed.2024.102945

TANG L, XIANG X, ZHANG H,et al. DIVFusion: Darkness-free infrared and visible image fusion[J]. Information Fusion,2023,91:477. DOI:10.1016/j.inffus.2022.10.034

ZHANG W, LU Y, ZHENG H,et al. MBRARN: Multibranch residual attention reconstruction network for medical image fusion[J]. Medical & Biological Engineering & Computing,2023,61(11):3067. DOI:10.1007/s11517-023-02902-2

TIAN J, SUN D, GAO Q,et al. A novel infrared and visible image fusion algorithm based on global information-enhanced attention network[J]. Image and Vision Computing,2024,149:105161. DOI:10.1016/j.imavis.2024.105161

SHI Y, SHI C, WENG Z,et al. CrossFuse: Learning infrared and visible image fusion by cross-sensor top-k vision alignment and beyond[J]. IEEE Transactions on Circuits and Systems for Video Technology,2025,35(8):7579. DOI:10.1109/TCSVT.2025.3544746

MA W, WANG K, LI J,et al. Infrared and visible image fusion technology and application: A review[J]. Sensors(Basel, Switzerland),2023,23(2):599. DOI:10.3390/s23020599

王瑾春, 马萍, 张宏立, 等. 基于语义驱动的红外与可见光图像交互融合[J]. 哈尔滨工业大学学报,2025,57(9):56.WANG Jinchun, MA Ping, ZHANG Hongli,et al. Semantic-driven interactive fusion of infrared and visible light images[J]. Journal of Harbin Institute of Technology,2025,57(9):56. DOI:10.11918/202406056

MERGIN A A, PREMI M S G. Convolutional neural networks(CNN)with quantum-behaved particle swarm optimization(QPSO)-based medical image fusion[J]. International Journal of Image and Graphics,2024,24(5):2340005. DOI:10.1142/S0219467823400053

ZHOU Y, YANG X, LIU S,et al. Multimodal medical image fusion network based on target information enhancement[J]. IEEE Access,2024,12:70851. DOI:10.1109/ACCESS.2024.3402965

RAM PRABHAKAR K, SAI SRIKAR V, VENKATE BABU R. DeepFuse: A deep unsupervised approach for exposure fusion with extreme exposure image pairs[C]//2017 IEEE International Conference on Computer Vision(ICCV). Venice, Italy: IEEE,2017:4724. DOI:10.1109/ICCV.2017.505

MA J, TANG L, FAN F,et al. SwinFusion: Cross-domain long-range learning for general image fusion via swin transformer[J]. IEEE/CAA Journal of Automatica Sinica,2022,9(7):1200. DOI:10.1109/JAS.2022.105686

XI X, JIN X, JIANG Q,et al. EMA-GAN: A generative adversarial network for infrared and visible image fusion with multiscale attention network and expectation maximization algorithm[J]. Advanced Intelligent Systems,2023,5(11):17. DOI:10.1002/aisy.202300310

ZHAO Z, BAI H, ZHU Y,et al. DDFM: Denoising diffusion model for multi-modality image fusion[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV). Paris, France: IEEE Computer Society,2023:8082. DOI:10.1109/ICCV51070.2023.00742

YUE J, FANG L, XIA S,et al. Dif-fusion: Toward high color fidelity in infrared and visible image fusion with diffusion models[J]. IEEE Transactions on Image Processing,2023,32:5705

YI X, TANG L, ZHANG H,et al. Diff-IF: Multi-modality image fusion via diffusion model with fusion knowledge prior[J]. Information Fusion,2024,110:102450. DOI:10.1016/j.inffus.2024.102450

ZHANG H, CAO L, MA J. Text-DiFuse: An interactive multi-modal image fusion framework based on text-modulated diffusion model[J]. Advances in Neural Information Processing Systems,2024,37:39552

GAO X, YANG S, LIU J. PTDiffusion: Free lunch for generating optical illusion hidden pictures with phase-transferred diffusion model[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. Nashville, TN, USA: Computer Vision Foundation,2025:18240

WEI X, GUO W, YU W,et al. OSDM-MReg: Multimodal image registration based one step diffusion model[J].arXiv:2504.06027. DOI:10.48550/arXiv.2504.06027

TANG L, YUAN J, MA J. Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion,2022,82:28. DOI:10.1016/j.inffus.2021.12.004

CHENG C, XU T, WU X-J. MUFusion: A general unsupervised image fusion network based on memory unit[J]. Information Fusion,2023,92:80. DOI:10.1016/j.inffus.2022.11.010

XU H, MA J, JIANG J,et al. U2Fusion: A unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,44(1):502. DOI:10.1109/TPAMI.2020.3012548

ZHAO W, XIE S, ZHAO F,et al. Metafusion: Infrared and visible image fusion via meta-feature embedding from object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Vancouver, BC, Canada: IEEE,2023:13955. DOI:10.1109/CVPR52729.2023.01341

WANG W, DENG L J, VIVONE G. A general image fusion framework using multi-task semi-supervised learning[J]. Information Fusion,2024,108:102414. DOI:10.1016/j.inffus.2024.102414

QIAN Y, LIU G, TANG M C R. BTSFusion: Fusion of infrared and visible image via a mechanism of balancing texture and salience[J]. Optics and Lasers in Engineering,2024,173:107925. DOI:10.1016/j.optlaseng.2023.107925

LIU X, HUO H, LI J,et al. A semantic-driven coupled network for infrared and visible image fusion[J]. Information Fusion,2024,108:102352. DOI:10.1016/j.inffus.2024.102352

LEI J, LI J, LIU J,et al. MLFuse: Multi-scenario feature joint learning for multi-modality image fusion[J]. IEEE Transactions on Multimedia,2025,27:3880. DOI:10.1109/TMM.2025.3535355

VENKATESAN B, RAGUPATHY U S. An investigation on multimodal brain image fusion in the time-frequency domain using wavelet transforms[J]. IETE Journal of Research,2024,70(6):11. DOI:10.1080/03772063.2023.2280670

LIU J, WU G, LIU Z,et al. Infrared and visible image fusion: From data compatibility to task adaption[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2024,47(4):2349. DOI:10.1109/TPAMI.2024.3521416

XU S, ZHAO Z, BAI H,et al. Hipandas: Hyperspectral image joint denoising and super-resolution by image fusion with the panchromatic image[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Honolulu, HI, USA: IEEE,2025:12002. DOI:10.1109/CVPR52729.2023.01341

DU S, ZOU Y, WANG Z,et al. Unsupervised hyperspectral and multispectral image fusion via self-supervised modality decoupling[EB/OL].(2024-12-06)[2026-04-29].arXiv:2412.04802. DOI:10.48550/arXiv.2412.04802

ZHONG Y, HE J, LIANG Z,et al. Medical image fusion for high-level analysis: A mutual enhancement framework for unaligned PAT and MRI[EB/OL].(2024-07-04)[2026-04-29].arXiv:2407.03992. DOI:10.48550/arXiv.2407.03992

CHENG C, XU T, WU X J,et al. TextFusion: Unveiling the power of textual semantics for controllable image fusion[J]. Information Fusion,2025,117:102790

JIANG C, LIU X, ZHENG B,et al. HSFusion: A high-level vision task-driven infrared and visible image fusion network via semantic and geometric domain transformation[EB/OL].(2024-07-13)[2026-04-29].arXiv:2407.10047. DOI:10.48550/arXiv.2407.10047

LIU J, FAN X, HUANG Z,et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). New Orleans, LA, USA: IEEE Computer Society,2022:5802. DOI:10.1109/CVPR52688.2022.00571

出版声明

期刊订阅

1 图像融合方法

2 实验结果与分析

3 结论