Style transfer of Dunhuang murals fusing multi-scale features

doi:10.11918/202504011

融合多尺度特征的敦煌壁画风格迁移

doi: 10.11918/202504011

曹岩，郭炳森，冯丹丹，张燚，辛子昊

兰州交通大学电子与信息工程学院，兰州 730070

基金项目: 甘肃省自然科学基金（23JRRA913，25JRRA177）；中央引导地方科技发展资金（25ZYJF001）

详细信息

作者简介

曹岩（1982—），男，副教授

通讯作者

郭炳森，17335382899@163.com

中图分类号: TP391.41

文献标识码: A

文章编号: 0367-6234(2026)05-0073-10

Style transfer of Dunhuang murals fusing multi-scale features

CAO Yan ， GUO Bingsen ， FENG Dandan ， ZHANG Yi ， XIN Zihao

School of Electronic & Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070 , China

摘要

为解决现有风格迁移技术在处理敦煌壁画时遇到的因高饱和度矿物颜料、精细纹理及层次结构复杂导致的色彩失真、细节模糊、层次结构失调问题，本文提出多尺度敦煌风格迁移网络，改进循环生成对抗网络来实现高质量敦煌壁画风格迁移。通过引入自适应局部膨胀卷积网络，结合可变形卷积动态捕捉细节纹理边缘和膨胀卷积增强纹理远距离关联性，有效恢复深层特征捕捉壁画笔触细节。设计双域网络，通过全局注意力分支建模壁画整体色调协调性，局部分组卷积分支强化笔触细节，解决迁移过程中的信息丢失和色彩层次弱化问题。提出路径融合网络，利用多膨胀率深度可分离卷积并行处理与动态门控融合机制，优化元素间逻辑关系与比例协调。研究表明，本文所提方法在FID、LPIPS和L2损失指标上分别降低了5.81%、4.36%和5.73%，而SSIM提升了8.12%。用户调研显示，其在内容保真度、风格匹配度和视觉吸引力方面表现突出。本文方法有效解决了迁移敦煌壁画时色彩层次、纹理细节与空间布局的保留难题，可为敦煌壁画艺术的数字化保护与创新传播提供新的思路。

关键词

深度学习 / 风格迁移 / 生成对抗网络 / 多尺度特征 / 敦煌壁画

Abstract

To address color distortion, detail blurring, and structural incoherence in existing style transfer techniques when processing Dunhuang murals——caused by highly saturated mineral pigments, intricate textures, and complex layered structures——this paper proposes a Multi-scale Dunhuang Style Transfer Network based on an improved Cycle-Consistent Generative Adversarial Network for high-quality artistic style transfer. We introduce an adaptive local dilated convolutional-net that dynamically captures detailed texture edges using deformable convolution and enhances long-range texture dependencies through dilated convolution, thereby restoring deep features to preserve brushstroke details. A dual scope net is designed to mitigate information loss and color-layer weakening during style transfer, employing a global attention branch to model overall tonal harmony and a local grouped convolution branch to reinforce stroke details. Additionally, a pathwise fusion net optimizes logical relationships and proportional coordination between elements using multi-dilation-rate depthwise separable convolutions for parallel processing and a dynamic gated fusion mechanism. Experimental results show that the proposed method achieves reductions of 5.81%, 4.36%, and 5.73% in FID, LPIPS, and L2 loss, respectively, and an improvement of 8.12% in SSIM. User studies confirm its superiority in content fidelity, style consistency, and visual appeal. This approach effectively resolves challenges in preserving color layers, texture details, and spatial layouts in Dunhuang murals transfer, offering a novel approach for Dunhuang murals digitization and innovative dissemination.

Keywords

deep learning / style transfer / generative adversarial network / multi-scale features / Dunhuang murals

1 多尺度敦煌风格迁移网络 1.1 整体网络架构 1.2 双域网络DSNT 1.3 路径融合网络PFNT 1.4 自适应局部膨胀卷积网络ALDC-NT 1.5 损失函数 2 实验概况及结果分析 2.1 实验环境和数据集 2.2 风格迁移结果定性分析 2.3 风格迁移结果定量分析 2.4 消融实验 2.5 其他数据集的实验 3 结语

敦煌壁画作为墙壁上的视觉艺术表现形式，构成了世界艺术宝藏中的重要部分，其因悠久的历史、丰富多样的绘画内容以及卓越的艺术价值而著称^[1]。然而，由于其存在形式的独特性与创作过程的复杂度，使得敦煌壁画艺术相较于油画和水墨画等其他艺术形式更难以普及。此外，自然因素及人为活动导致的剥落等多种破坏，使其保存和传承变得越来越迫切。因此，实现敦煌壁画艺术形象的自动化创作，对于保护并推动敦煌壁画艺术的发展具有至关重要的意义。

图像风格迁移技术是一种计算机视觉技术，其目的是将一幅风格图像的纹理与色彩等特征应用于另一幅内容图像上，同时保持内容图像的主要结构和语义内容不变^[2]。将敦煌壁画艺术风格与其他图像相结合，为艺术作品的二次创作提供了新思路，也促进了中华优秀传统文化的创造性转化与创新性发展^[3-4]。

Gatys等^[5]首次将卷积神经网络引入到图像风格转移中，通过最小化内容和风格损失，实现了从一张图像到另一张图像的风格转移。单模型多风格方法^[6]，通过单一网络实现多样式输出。例如，Dumoulin等^[7]采用条件实例归一化技术，通过调整归一化参数实现多风格适配；Zhang等^[8]设计的多风格生成网络，利用风格图像的二阶统计特征驱动迁移过程。然而，此类方法因风格表征共享易导致特征混淆，特定风格细节（如笔触独特性）可能被弱化。单模型单风格方法^[9]，则为每种艺术形式独立构建专用网络。例如，Johnson等^[10]通过引入感知损失函数优化网络参数，实现高精度快速迁移；Zhang等^[11]针对动漫风格开发残差U-net架构。Hu等^[12]提出一种基于细节特征提取融合的中国山水画风格迁移网络，该网络主要针对山水画的独特风格，较大程度地保留山水场景的特征。因此，相比之下，在对敦煌壁画进行风格迁移时采用单模型单风格迁移的方法更具说服力。

除基于卷积神经网络的模型外，生成对抗网络^[13]提供了一种通过对抗性训练实现跨域图像转换的有效范式，使输入图像具有目标域的特定风格。Cheng等^[14]引入潜在扩散模型（latent diffusion model，LDM），在此基础上进行内容反转和概率融合，但对自然图像的影响并不显著，在某些情况下可能很难生成预期的风格化图像。为了解决这一问题，一些方法引入了循环一致性约束，如CycleGAN模型^[15]和DualGAN模型^[16]，通过将生成图像与反向变换后的原始输入进行比较，以保持输入图像的内容不变。Wang等^[3]提出了一种基于改进对比学习框架的DunhuangGAN模型，该模型通过优化特征对齐和风格判别机制，显著增强了敦煌壁画艺术风格迁移的准确性和视觉保真度。Gui等^[4]提出了基于CycleGAN的融合CBAM注意力机制的敦煌壁画风格迁移方法，生成的敦煌壁画风格图像在视觉效果和艺术性上得到提升。

近年来，随着对比语言-图像预训练和潜在扩散模型的发展，基于示例到图像的生成模型因其卓越的生成能力而受到广泛关注。Zhang等^[17]提出了一种基于反转的扩散模型InST，通过优化文本嵌入空间实现细粒度的示例驱动风格迁移。Wang等^[18]提出了StyleDiffusion模型，基于扩散模型的特征解耦策略，以增强对图像内容与风格的可控编辑能力。Huang等^[19]提出的QuantArt模型提升了风格迁移视觉保真度，但仍面临生成准确性的挑战。针对这一问题，Chung等^[20]提出StyleID，一种基于预训练扩散模型的风格迁移方法，通过替换自注意力机制中的键和值实现风格适配，无需额外优化或文本监督。此外，Huang等^[21]提出了一种免训练的注意力驱动风格迁移框架，通过替换自注意力层键值适配参考风格，实现高效的风格特征融合。

本文以CycleGAN模型^[15]为基线架构，对敦煌壁画这一独特艺术形式进行针对性优化。敦煌壁画以矿物颜料为主，色彩饱和度高且具有独特的古朴质感。在进行风格迁移任务时，处理高饱和度颜色可能会导致色彩失真或褪色无法准确复现壁画中矿物颜料的层次感和历史沉淀感。且壁画中的山水、人物和建筑元素具有丰富的细节和纹理，在迁移过程中可能会丢失这些精细的特征导致生成图像显得模糊或失真。敦煌壁画注重层次感和空间布局，山水、人物和建筑元素之间具有明确的比例协调性，模型往往难以理解壁画中元素的层次关系，可能导致生成的山水背景呈现扁平化或杂乱堆砌。针对以上问题，本文提出一种新的多尺度敦煌风格迁移网络（multi-scale Dunhuang style transfer network）来实现从目标图片到敦煌壁画风格的迁移任务。

1 多尺度敦煌风格迁移网络

1.1 整体网络架构

选择CycleGAN^[15]模型作为本文敦煌壁画迁移模型的骨干网络，所提出的迁移模型如图1所示，其由两个互为镜像的生成对抗网络构成闭环系统，包括两个改进后的生成器和两个判别器。两个方向的转换路径均配备了改进后的生成器和判别器，形成双向对称的对抗训练机制。

改进的生成器借鉴深度级联设计思想，由编码器、转换器和解码器构成，编码器的结构由初始卷积层、两个下采样块和双域网络（dual scope net，DSNT）组成。解码器结构包括另外一个双域网络、两个上采样块、自适应局部膨胀卷积网络（adaptive local dilated convolutional-net，ALDC-NT）和输出卷积块。在编码器和解码器之间的连接区域是转换器，由残差模块组和相同数量的路径融合网络（pathwise fusion net，PFNT）并联而成，负责恢复和增强数据信息，保留更多输入图像的内容特征。其中，初始卷积层、下采样块与上采样块均采用统一的构建范式，即Conv2d和ConvTranspose2d后依次接实例归一化（InstanceNorm2d）与ReLU激活，分别简记为CIR与DIR；最终输出卷积层单独采用Tanh激活。判别器的结构使用PatchGAN^[15]的设计，对输入的图像进行卷积、归一化和激活操作。

图1总体模型框架

Fig.1Overall model framework

1.2 双域网络DSNT

针对生成器下采样过程中特征图空间压缩导致的结构信息丢失和色彩层次弱化问题，本文提出双域网络DSNT，如图2所示，其核心思想是通过局部分支与全局分支的协同建模，局部分支通过细粒度特征提取，有效保留了壁画独特的笔触细节和纹理特征，而全局分支则通过长程依赖建模，确保了色彩分布的协调性与风格一致性。

图2双域网络

Fig.2Dual scope net

在DSNT的局部分支中，首先使用1×1卷积来调整通道维度，将输入特征映射到目标通道数，以减少后续计算冗余。随后执行通道混洗操作以进一步混合通道信息，通道混洗将输入张量沿通道维度划分为组，其中每组采用深度可分离卷积来诱导通道混洗。而后将每组得到的输出张量沿通道维度连接，生成新的输出张量。最后利用分组数为2的3×3分组卷积（grouped convolution，GC）增强局部特征提取能力，在减少参数量的同时增加局部特征多样性，促进特征多样性以及与全局分支互补。局部分支表述为

L = G_{C_{3 \times 3}} (S (C_{1 \times 1} (U)))

(1)

式中：L为局部通道的输出，

G_{C_{3 \times 3}}

为卷积核大小为3×3的分组卷积，S为通道混洗操作，C_1×1为1×1的卷积，U为输入特征。

在DSNT的全局分支中，首先通过层归一化、1×1卷积和膨胀率为2的3×3的膨胀卷积进行特征规范化与映射，生成查询（Q）、键（K）和值（V）3个形状为H×W×C的张量。随后Q被重塑为

Q_{1} \in R^{H W \times C}

，K被重塑为

K_{1} \in R^{C \times H W}

。使用Q和K的点积计算注意力分数，显著降低了计算复杂度。全局分支表述如下：

F = C_{1 \times 1} Attention (Q_{1}, K_{1}, V_{1}) + U

(2)

Attention (Q_{1}, K_{1}, V_{1}) = V_{1} S o f t m a x (K_{1} Q_{1} / α)

(3)

式中：F为全局通道的输出，C_1×1为卷积核大小为1×1的卷积，α为一个可学习的缩放参数，用于在应用Softmax函数之前控制Q₁和K₁的矩阵乘法的大小。整体模块计算的输出计算为

Out = L + F

(4)

在生成器的关键下采样模块之后加入该网络，用于补偿空间压缩导致的信息损失，并在上采样模块前提前建模跨区域的色彩关联性，避免高频细节在插值过程中被平滑。这种互补式结构能够在生成过程中精确维持敦煌壁画的艺术特质，包括其独特的色彩层次表现、历史沉淀形成的质感以及整体美学风格。

1.3 路径融合网络PFNT

针对生成器中转换器的残差块在敦煌壁画风格迁移中结构层次建模不足、多尺度特征缺失等问题，本文设计路径融合网络PFNT，如图3所示，通过多膨胀率深度可分离卷积并行处理与动态门控融合机制，实现多层次特征的自适应提取与融合。

图3路径融合网络

Fig.3Pathwise fusion net

该网络使用3个具有膨胀比d∈{1，2，3}的不同DWConv层来捕获低、中和高阶间的相互作用。给定输入

x_{e} \in R^{C_{e} \times H W}

首先经过DW_5×5，_d₌₁提取低阶特征，并沿通道维度分为3组:

x_{a} \in R^{C_{a} \times H W} ， x_{b} \in R^{C_{b} \times H W} ， x_{d} \in R^{C_{d} \times H W}

。随后，x_a，x_d分别分配给DW_5×5，_d₌₂，DW_7×7，_d₌₃扩大感受野以捕捉纹理连续性，建模元素间远距离空间关系，而x_b用作原始信息通路，保持映射不变。而后将x_a，x_b，x_d的输出连接形成多阶上下文，表示为Y=Concat（Y_a，Y_b，Y_d），并通过1×1逐点卷积融合来自所有分支的多阶特征，BatchNorm和SiLU激活函数用于值分支和门控分支。随后将得到的特征与另一高层次特征分支进行通道间的信息交互。最后将融合后特征通过1×1卷积和FFN（前馈网络）进一步非线性变换增强模型的表达能力，加入跳跃连接优化过程中的稳定性和收敛速度。整体模块的输出如式（5）、式（6）所示：

M = S i L U (B N ({C o n v}_{1 \times 1} (x_{e}))) ⊙ S i L U (B N ({C o n v}_{1 \times 1} (Y)))

(5)

T = F F N (C_{{o n v}_{1 \times 1}} (M)) + x_{e}

(6)

将多尺度特征提取模块与生成器的残差连接组并联集成，通过层次化特征融合机制增强模型对图像语义的理解能力。显著提升模型在处理敦煌壁画时对层次感和空间布局的理解能力，保留山水、人物和建筑元素之间的明确逻辑关系且比例协调，减少了生成图像出现扁平化或杂乱堆砌的问题。

1.4 自适应局部膨胀卷积网络ALDC-NT

改进后的生成器上采样模块可能无法有效恢复深层特征，如敦煌壁画的细节笔触、纹理，导致生成图像边缘模糊或细节失真。为了更精细地处理这些深层特征，本文设计了ALDC-NT网络，如图4所示，其中，可变形卷积动态捕捉纹理细节边缘，膨胀卷积则增强纹理的远距离关联性。

图4自适应局部膨胀卷积网络

Fig.4Adaptive local dilated convolutional-net

ALDC-NT是一个U形结构，由两个线性可变形卷积（linear deformable convolution，LDC）^[22]层和膨胀率R为2、4和4的膨胀卷积层组成。首先对输入x应用可变形卷积操作进行批量归一化和ReLU激活得到x₁。然后，将输出经过膨胀率为2和4的膨胀卷积，并进行批量归一化和ReLU激活得到特征dx₁，dx₂，其中膨胀率为2的分支聚焦局部笔触细节，膨胀率为4的分支建模复杂纹理关系。其次，将dx₁，dx₂在通道维度上拼接，并对该结果再次应用膨胀率为4的膨胀卷积，得到Dconv₃而后将x₁和Dconv₃在通道维度上拼接，以防止卷积操作造成的信息丢失。再次，应用可变形卷积操作，动态调整卷积核的位置，以适应不同区域的特征变化，确保壁画中的细腻线条和复杂纹理被精确再现。最后进行批量归一化和ReLU激活输出F_out。网络的前向传播见式（7）。

F_{out} = {L D}_{{C o n v}_{2}} (C o n c a t (x_{1}, D_{{C o n v}_{3}} (C o n c a t ({d x}_{1}, {d x}_{2})))

(7)

式中：

D_{{C o n v}_{3}}

是将dx₁，dx₂在通道维度上拼接，并对该结果应用膨胀率为4的膨胀卷积操作，

{L D}_{{C o n v}_{2}}

是x₁和

D_{{C o n v}_{3}}

在通道维度的拼接后应用可变形卷积操作。

将ALDC-NT加入模型上采样模块后，充分利用了网络深层特征的特点，前3个层通过不同扩张率的膨胀卷积层，使得模型能够捕捉从局部到全局的多尺度特征，使用跳跃连接机制允许网络直接传递底层的高分辨率信息至输出层，减少深层次信息丢失，从而有效地保留壁画中的原始细节，避免因多次上采样导致的图像模糊或失真现象。

1.5 损失函数

本文将对抗性损失（adversarial loss）^[15]应用于两个映射函数。对于生成器G有如下映射关系G:X→Y，对应判别器D_y， X和Y分别为源域和目标域，目标损失表示为

\begin{matrix} L_{G A N} (G, D_{y}, X, Y) = E_{y \sim p_{d a t a (y)}} [l o g D_{y} (y)] + \\ E_{x \sim p_{d a t a (x)}} [\log (1 - D_{y} (G (x)))] \end{matrix}

(8)

式中：G为生成与Y域中图像相似的图像；D_y为判断生成的图像G（x）与真实图像y之间的差异性；E为取得样本的平均值。另外一个生成器F及其对应的判别器D_x，目标函数的构建过程完全镜像对称。

引入循环一致性损失（cycle consistency loss）^[15]，确保生成的图像能够保留原始图像的重要特征。具体来说，如果将一个图像x从X域通过生成器G转换到Y域，然后再通过F生成器转换回X域，那么最终得到的图像应该与原始图像x非常接近。同样，这个原则也适用于从Y域到X域再到Y域的转换。循环一致性损失表示为

\begin{matrix} L_{c y c} (G, F) = E_{x} [‖ F (G (x)) - x ‖_{1}] + \\ E_{y} [‖ G (F (y)) - y ‖_{1}] \end{matrix}

(9)

引入本体映射损失（identity loss），这一部分的损失确保当输入图像已经是生成器目标域中的图像时，生成器不会对这幅图像做出不必要的改变或转换。如果输入是目标域Y中的一个真实样本y，则希望G（y）≈y，即生成器G应当尽量不改变输入图像。这可以通过最小化G（y）与y之间的差异来实现。同理，如果输入是源域X中的一个真实样本x，则期望F（x）≈x。本体映射损失如式（10）所示。

\begin{matrix} L_{identity} (G, F) = E_{y} [‖ G (y) - y ‖_{1}] + \\ E_{x} [‖ F (x) - x ‖_{1}] \end{matrix}

(10)

综上所述，可以得到如下总体目标损失函数：

\begin{matrix} L (G, F, D_{x}, D_{y}) = L_{G A N} (G, D_{y}, X, Y) + L_{G A N} (F, D_{x}, Y, X) + \\ λ L_{c y c} (G, F) + γ L_{i d e n t i t y} (G, F) \end{matrix}

(11)

式中，λ和γ为控制不同损失函数相对重要性的权重系数。λ=10、γ=0.5，与CycleGAN中的权重设置一致。

2 实验概况及结果分析

2.1 实验环境和数据集

本文实验环境为Windows11操作系统，硬件环境为Intel Core i5-13400F处理器，16.0 GB系统内存，采用NVIDIA显存16GB的GeForce RTX4060TI GPU，对比实验均在相同环境下进行。针对敦煌壁画高分辨率线条与剥落纹理的保留需求，本文采用batch size=1小批次训练，为抑制梯度噪声、提升细节保真度并保障实验公平，基线与改进模型统一使用AdamW优化器。训练epoch设为200，损失连续10轮波动小于0.005时判定收敛，全程无过拟合。

敦煌壁画融合了中原汉文化、印度佛教艺术、波斯文化以及西域各民族的艺术风格，形成了独特的多元文化特征，其整体色调既华丽又和谐，展现了高超的色彩运用技巧。线条流畅而有力，山石的轮廓线清晰，树木的枝叶描绘细腻。山水布局注重远近层次的表现，近景的山石、树木刻画细致，远景的山峰则逐渐虚化，形成深远的空间感。经许可，数据集中的一些图像来自敦煌研究所的公共在线资源和专有数据，如图5所示，数据集包含各种类别和分辨率的图像，对于敦煌艺术研究人员，自然图像的风格迁移任务具有重要意义，因此本文在内容图中选择了更多山脉和自然风景的内容图像，并在风格图中尝试选择了自然风景的敦煌壁画，共4 100张内容图和风格图，其中内容图2800张，风格图1300张。将输入图像的大小统一调整为224×224，使用8∶2拆分将其分成训练集和测试集。此外，为了提高模型的训练效率与生成图像效果，还进行了旋转、裁剪等必要的数据增强处理，确保输入模型的图像数据均匀和规范化。

图5敦煌壁画数据集

Fig.5Dunhuang mural dataset

2.2 风格迁移结果定性分析

为了验证本文方法的有效性，本文在定性分析中将其与7种流行的风格迁移方法进行了比较，结果如图6所示。由图6可以看出，CycleGAN^[15]能够在没有成对训练数据的情况下学习两个不同域之间的映射关系，但在图像转换过程中可能会错误地解读内容图像，导致细节区域出现不自然的纹理和块状结构，色彩失真或褪色，层次和空间布局欠佳。AdaAttN^[23]利用自适应注意力归一化实现特征分布的一致性，然而在保持内容完整性方面仍有限制，导致生成图像时可能出现结构细节丢失和颜色块匹配不佳的情况。CAST^[24]通过替代二阶损失的方式保留了大部分的风格特征，使得颜色接近于目标样式，但在内容结构方面存在学习不稳定的问题。AesPA-Net^[25]专注于增强注意力机制，在内容保真度方面表现良好，但色彩饱和度不足且细节纹理还原较弱。基于扩散模型的方法InST^[17]和IP-Adapter^[26]能够创造出生动的图像，但这些方法往往对原始图像的语义和内容进行了大量的修改，难以维持风格与内容之间的平衡。StyleID^[20]是一种基于预训练扩散模型的风格迁移方法，能够较好地保留内容语义，但其风格迁移结果偏向油画质感，与敦煌壁画的矿物颜料颗粒感存在显著差异。本文所提网络生成的结果图像具有高质量和较为真实的敦煌壁画风格。在风格特征上提取到接近原风格图像的色彩、细节特征和层次关系，并完整地呈现内容图像的语义特征。在针对不同类型的敦煌壁画风格进行风格迁移时，均可输出高质量、未丢失语义且风格鲜明的图像。

图6对比实验

Fig.6Comparative experiment

2.3 风格迁移结果定量分析

为分析模型迁移后图像的质量，本文采用的迁移后图像定量分析的指标有以下4种。1）FID。FID关注图像的全局特征，适用于评估生成图像集合的整体质量和多样性。在敦煌壁画风格迁移中，FID能够反映生成图像的全局整体质量。2）L2损失。L2损失主要用来评估生成图像与原始内容图像之间的像素级差异。在敦煌壁画风格迁移中，用于评估图像在多大程度上保留了原始内容图像的内容信息。3）结构相似性SSIM。SSIM用于比较原始图像和目标图像的亮度分布、对比度和结构信息。首先在各个方面都得到一个相似性得分，然后综合得出整体的相似度评分，证明迁移后壁画的艺术完整性。4）学习感知图像块相似度LPIPS。LPIPS主要关注图像的局部和细节特征，更加符合人类视觉系统对图像质量的感知。在相同参数和实验环境下，针对每种方法选取相同数量的内容图片和风格图片进行指标的分析，从测试集随机选取200张图片进行指标测试，结果如表1所示。通过指标对比可以发现，相比其他方法本文提出的模型在迁移敦煌壁画风格的实验中，生成的结果图像在全局特征、局部特征细节、整体结构层次、亮度分布和对比度等方面均有优异表现，较好地还原了敦煌艺术特有的高饱和矿物颜料、精细纹理和复杂层次结构。为对比不同模型生成图片的时间效率，在相同环境和参数下，对单幅224×224图像端到端风格迁移平均时长进行比较，结果如表1所示。由表1可以看到：CycleGAN和CAST基于对抗训练的域映射，相比其他对比实验更轻量化; 相对的，AdaAttN和AesPA-Net依赖注意力机制复杂度升高; StyleID、InST和IP-Adapter为扩散模型，其生成过程依赖多步迭代的去噪范式，生成速度通常较慢; 本文方法专注多尺度风格解耦，虽相对原模型生成图片时间增加，但与其他对比实验相比更可满足实际需求。

表1定量分析指标结果对比

Tab.1Comparison of quantitative analysis index results

本研究针对敦煌壁画艺术风格迁移效果进行了系统性用户调研。实验共招募329名具有多元化专业背景的参与者，其中艺术领域从业者占比38.6%（含美术教育、文物保护等方向），非艺术领域参与者占比61.4%（涵盖计算机科学、人文社科等学科），最终回收有效问卷289份。评估体系由3个核心指标构建，分别是内容保真度、风格匹配度、视觉吸引力。内容保真度：量化生成图像与源图像在主题元素、物体构成及场景布局层面的相似性。风格匹配度：评估生成图像与目标敦煌壁画在笔触特征、色彩体系及艺术表现手法方面的一致性。视觉吸引力：从美学维度衡量图像在构图平衡、视觉舒适度及艺术感染力方面的综合表现。实验采用被试间随机分组评测范式：每位参与者被分层随机分配至单一模型与单一评价指标组合，观看单张生成图像并依据0~3.00分连续滑块完成对应维度评分。对收集到的分数进行平均数和标准差计算，结果见表2和图7。

表2用户投票评分

Tab.2User voting ratings

图7用户分数均值和标准差统计折线图

Fig.7Line plot of user score mean and standard deviation statistics

本文提出的方法在3个评估维度均取得显著优势，具体表现为：内容保真度均值2.54（σ=0.24）、风格匹配度均值2.58（σ=0.23）、视觉吸引力均值2.71（σ=0.11）。实验结果验证了本方法在敦煌艺术风格迁移任务中的有效性，不仅实现了源图像语义特征的高保真度留存，同时也精准捕捉了敦煌壁画特有的矿物颜料色域，说明该方法在内容完整性、风格准确性与审美价值之间达到了优化平衡，符合大众对数字敦煌艺术的审美期待。

2.4 消融实验

对本文模型进行消融实验得到的风格迁移图像如图8所示。

图8中第3列为CycleGAN原模型生成的风格图像。（a）列图为在生成器中加入PFNT模块的效果，该模块在保持分辨率的同时提取多尺度的信息，可解决原模型在生成图像时，山体、天空和人物等常见元素之间逻辑关系和比例协调不足和失真问题，确保图像内容的和谐统一，但仍存在局部纹理模糊，色彩协调性欠缺；（b）列图是在（a）列基础上加入DSNT模块，该模块可增强图像全局和局部特征的建模，使得生成图像可以更好地捕捉壁画的整体结构和局部色彩分布，使得树枝、天空及山顶等元素的迁移色彩更加自然且生动，增强视觉表现力，但局部纹理不太清晰；（c）列图是在（a）、（b）列基础上加入ALDC-NT，可进一步捕捉壁画中山水、枝叶等元素的精细笔触，使得生成图像中山体的轮廓更加清晰，树枝、叶片等细微纹理特征条理清晰，与风格图像特征更为贴合，整体青绿山水的青绿色色调统一协调，图像整体结构、元素逻辑关系也与壁画风格图像有较好的匹配，内容图像中的结构在迁移后的风格图像中均保留了原始细节。

图8消融实验

Fig.8Ablation experiments

表3是加入不同模块后的指标变化，可以看到，本文所提方法在FID、SSIM、LPIPS和L2损失上均有较大提高，由此体现出生成图像在全局特征、局部特征细节和整体结构层次、亮度分布和对比度等方面均有出色的提升。

表3消融实验结果指标对比

Tab.3Comparison of indicators of ablation experiment results

2.5 其他数据集的实验

为验证本文方法在不同艺术风格上的泛化能力，本文在中国水墨画和梵高油画两种差异显著的艺术风格上进行了迁移实验。实验采用与敦煌壁画相同的网络结构和训练参数，仅替换风格图像数据集，以验证模型对多样化艺术风格的适应能力。中国水墨画以黑白灰为主色调，强调笔触的流动性和画面的留白意境。由图9第3列结果可以看到：本文方法成功捕捉了水墨画的晕染效果和笔触特征，生成的山水图像呈现出典型的水墨渐变层次；在细节保留方面，模型较好地处理了水墨特有的飞白效果，树枝和山石的轮廓线自然流畅。梵高油画以鲜艳的色彩和独特的笔触著称。由图9的第6列可以看到：本文方法有效学习了梵高标志性的漩涡状笔触特征与强烈的色彩对比，在严格保持内容图像结构的基础上，成功再现了油画颜料的厚重质感，且色彩过渡自然，无显著色块分割现象。

图9其他数据集实验

Fig.9Experiments on other datasets

实验结果验证了本文方法在多个数据集上的有效性和可行性，同时体现了模块的理论价值，并证明了本文模型具有良好的泛化能力。

3 结语

本文针对敦煌壁画风格迁移任务中存在的色彩失真、纹理模糊及层次结构失调等问题，提出了一种改进CycleGAN的多尺度敦煌风格迁移网络。设计ALDC-NT网络，该网络是线性可变形卷积组合和膨胀卷积组合组成的U型结构，加入该网络可进一步捕捉壁画中山水、人物和建筑等元素的精细笔触。提出卷积和注意力组合DSNT，该网络可增强图像全局和局部特征的建模，使得模型可以更好地捕捉敦煌壁画的整体结构和局部色彩分布。提出PFNT，该网络在保持分辨率的同时提取多尺度的信息，更好地保留山水、人物和建筑元素之间的层次逻辑关系且比例协调。实验结果表明，本文所提方法在FID、SSIM、L2损失、LPIPS指标和生成图片速度方面表现优异，用户调研显示其在内容保真度、风格匹配度与视觉吸引力方面表现突出，验证了模型在艺术特征保留与生成质量上的优势。本研究可为敦煌壁画的数字化保护与创新传播提供技术支撑，其设计思路可扩展至其他传统艺术风格的自动化创作。但模型引入多尺度网络导致参数量增加，训练时单次迭代耗时增多，DSNT的全局注意力权重与PFNT门控信号缺乏直观语义解释，难以定位错误迁移区域。未来工作将聚焦于轻量化模型设计、跨域风格解耦与可解释性增强，进一步推动传统艺术数字化保护的实用化进程。

图1总体模型框架

Fig.1Overall model framework

下载: 全尺寸图片

图2双域网络

Fig.2Dual scope net

下载: 全尺寸图片

图3路径融合网络

Fig.3Pathwise fusion net

下载: 全尺寸图片

图4自适应局部膨胀卷积网络

Fig.4Adaptive local dilated convolutional-net

下载: 全尺寸图片

图5敦煌壁画数据集

Fig.5Dunhuang mural dataset

下载: 全尺寸图片

图6对比实验

Fig.6Comparative experiment

下载: 全尺寸图片

图7用户分数均值和标准差统计折线图

Fig.7Line plot of user score mean and standard deviation statistics

下载: 全尺寸图片

图8消融实验

Fig.8Ablation experiments

下载: 全尺寸图片

图9其他数据集实验

Fig.9Experiments on other datasets

下载: 全尺寸图片

表1定量分析指标结果对比

Tab.1Comparison of quantitative analysis index results

下载: 全尺寸图片

表2用户投票评分

Tab.2User voting ratings

下载: 全尺寸图片

表3消融实验结果指标对比

Tab.3Comparison of indicators of ablation experiment results

下载: 全尺寸图片

图1总体模型框架

Fig.1Overall model framework

图2双域网络

Fig.2Dual scope net

图3路径融合网络

Fig.3Pathwise fusion net

图4自适应局部膨胀卷积网络

Fig.4Adaptive local dilated convolutional-net

图5敦煌壁画数据集

Fig.5Dunhuang mural dataset

图6对比实验

Fig.6Comparative experiment

图7用户分数均值和标准差统计折线图

Fig.7Line plot of user score mean and standard deviation statistics

图8消融实验

Fig.8Ablation experiments

图9其他数据集实验

Fig.9Experiments on other datasets

表1定量分析指标结果对比

Tab.1Comparison of quantitative analysis index results

表2用户投票评分

Tab.2User voting ratings

表3消融实验结果指标对比

Tab.3Comparison of indicators of ablation experiment results

图1总体模型框架

Fig.1Overall model framework

图2双域网络

Fig.2Dual scope net

图3路径融合网络

Fig.3Pathwise fusion net

图4自适应局部膨胀卷积网络

Fig.4Adaptive local dilated convolutional-net

图5敦煌壁画数据集

Fig.5Dunhuang mural dataset

图6对比实验

Fig.6Comparative experiment

图7用户分数均值和标准差统计折线图

Fig.7Line plot of user score mean and standard deviation statistics

图8消融实验

Fig.8Ablation experiments

图9其他数据集实验

Fig.9Experiments on other datasets

表1定量分析指标结果对比

Tab.1Comparison of quantitative analysis index results

表2用户投票评分

Tab.2User voting ratings

表3消融实验结果指标对比

Tab.3Comparison of indicators of ablation experiment results

ROMÃO X, BERTOLIN C. Risk protection for cultural heritage and historic centres: Current knowledge and further research needs[J]. International Journal of Disaster Risk Reduction,2022,67:102652. DOI:10.1016/j.ijdrr.2021.102652

ISOLA P, ZHU Junyuan, ZHOU Tinghui,et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE,2017:1125. DOI:10.1109/CVPR.2017.632

WANG Weining, LI Yifan, YE Huan,et al. Dunhuang GAN: A generative adversarial network for Dunhuang mural art style transfer[C]//2022 IEEE International Conference on Multimedia and Expo(ICME). Taipei: IEEE,2022:1 DOI:10.1109/ICME52920.2022.9859987

贵向泉, 曹磊, 李立. 融合CBAM注意力机制的敦煌壁画风格迁移[J]. 计算机系统应用,2025,34(4):276.GUI Xiangquan, CAO Lei, LI Li. Style transfer of Dunhuang murals with CBAM attention mechanism[J]. Computer System Application,2025,34(4):276. DOI:10.15888/j.cnki.csa.009848

GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE,2016:2414. DOI:10.1109/CVPR.2016.265

GAO Wei, LI Yijun, YIN Yihang,et al. Fast video multi-style transfer[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Snowmass: IEEE,2020:3222. DOI:10.1109/WACV45572.2020.9093420

DUMOULIN V, SHLENS J, KUDLUR M. A learned representation for artistic style[PP/OL]. V1(2016-10-24)[2025-03-21].https://doi.org/10.48550/arXiv.1610.07629

ZHANG Hang, DANA K. Multi-style generative network for real-time transfer[C]//Proceedings of the European Conference on Computer Vision(ECCV)Workshops. Munich: ECCV,2018:349. DOI:10.1007/978-3-030-11018-5_32

CHEN Dongdong, YUAN Lu, LIAO Jing,et al. Stylebank: An explicit representation for neural image style transfer[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE,2017:1897. DOI:10.1109/CVPR.2017.296

JOHNSON J, ALAHI A, LI Feifei. Perceptual losses for real-time style transfer and super-resolution[C]//Computer Vision-ECCV 2016. Amsterdam: Springer International Publishing,2016:694. DOI:10.1007/978-3-319-46475-6_43

ZHANG Lvmin, JI Yi, LIN Xin,et al. Style transfer for anime sketches with enhanced residual U-net and auxiliary classifier GAN[C]//2017 4th IAPR Asian Conference on Pattern Recognition(ACPR). Nanjing: IEEE,2017:506. DOI:10.1109/ACPR.2017.61

胡景浩, 耿国华, 熊美均, 等. 基于细节特征提取融合的中国山水画风格迁移[J]. 工程科学与技术,2025,57(1):98.HU Jinghao, GENG Guohua, XIONG Meijun,et al. A style transfer method for chinese landscape painting based on detail feature extraction and fusion[J]. Advanced Engineering Sciences,2025,57(1):98. DOI:10.12454/j.jsuese.202300295

GOODFELLOW I, POUGET-ABADIE J, MIRZA M,et al. Generative adversarial networks[J]. Communications of the ACM,2020,63(11):139. DOI:10.1145/3422622

CHENG Bin, LIU Zuhao, PENG Yunbo,et al. General image-to-image translation with one-shot image guidance[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE,2023:22736. DOI:10.1109/ICCV51070.2023.02078

ZHU Junyan, PARK T, ISOLA P,et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE,2017:2223. DOI:10.1109/ICCV.2017.244

YI Zili, ZHANG Hao, TAN Ping,et al. Dualgan: Unsupervised dual learning for image-to-image translation[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE,2017:2849. DOI:10.1109/ICCV.2017.310

ZHANG Yunxin, HUANG Nisha, TANG Fan,et al. Inversion-based style transfer with diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE,2023:10146. DOI:10.1109/CVPR52729.2023.00978

WANG Zhizhong, ZHAO Lei, XING Wei. StyleDiffusion: Controllable disentangled style transfer via diffusion models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE,2023:7677. DOI:10.1109/ICCV51070.2023.00706

HUANG Siyu, AN Jie, WEI Donglai,et al. QuantArt: Quantizing image style transfer towards high visual fidelity[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE,2023:5947. DOI:10.1109/CVPR52729.2023.00576

CHUNG J, HYUN S, HEO J P. Style injection in diffusion: A training-free approach for adapting large-scale diffusion models for style transfer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE,2024:8795. DOI:10.1109/CVPR52733.2024.00840

HUANG Bo, XU Wenlu, HAN Qizhuo,et al. AttenST: A training-free attention-driven style transfer framework with pre-trained diffusion models[PP/OL]. V1(2025-03-11)[2025-03-21].https://doi.org/10.48550/arXiv.2503.07307

ZHANG Xin, SONG Yingze, SONG Tingting,et al. LDConv: Linear deformable convolution for improving convolutional neural networks[J]. Image and Vision Computing,2024,149:105190. DOI:10.1016/j.imavis.2024.105190

LIU Songhua, LIN Tianwei, HE Dongliang,et al. Adaattn: Revisit attention mechanism in arbitrary neural style transfer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE,2021:6649. DOI:10.1109/ICCV48922.2021.00658

ZHANG Yuxin, TANG Fan, DONG Weiming,et al. Domain enhanced arbitrary image style transfer via contrastive learning[C]//ACM SIGGRAPH 2022 Conference Proceedings. New York: ACM,2022:1. DOI:10.1145/3528233.3530736

HONG K, JEON S, LEE J,et al. AesPA-Net: Aesthetic pattern-aware style transfer networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE,2023:22758. DOI:10.1109/ICCV51070.2023.02080

HU Ye, ZHANG Jun, LIU Sibo,et al. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models[PP/OL]. V1(2023-08-13)[2025-03-21].https://doi.org/10.48550/arXiv.2308.06721

Publication Statement

Journal Subscription

1 多尺度敦煌风格迁移网络

2 实验概况及结果分析

3 结语