基于三维高光谱与Transformer的壁画风格自动分类方法研究

戎岩; 杨景龙; 张鹏昌; 曾子木

doi:10.15983/j.cnki.jsnu.2025019

陕西师范大学学报(自然科学版) >

2025 , Vol. 53 >Issue 6: 62 - 70

DOI: https://doi.org/10.15983/j.cnki.jsnu.2025019

人工智能专题

基于三维高光谱与Transformer的壁画风格自动分类方法研究

戎岩 ¹ ,
杨景龙 ^,²^,^* ,
张鹏昌 ³ ,
曾子木 ³

展开

¹ 咸阳师范学院历史文化学院, 陕西咸阳 712000
² 咸阳市文物保护中心, 陕西咸阳 712000
³ 中国科学院西安光学精密机械研究所光谱成像技术研究室, 陕西西安 710068

^* 杨景龙,男,副研究员,主要从事壁画保护研究。E-mail:yjl313221@163.com

Office editor: 宋轶文

收稿日期: 2025-07-02

网络出版日期: 2025-12-17

基金资助

教育部人文社科基金项目(22XJC780001)

陕西省社会科学基金项目(2021G008)

陕西省科技厅重点研发项目(2024SF-YBXM-683)

咸阳市科技局重点研发项目(L2023-ZDYF-SF-026)

咸阳市渭城区科技局软科学研究项目(2024VCRK-006)

收起

Automatic classification of mural painting styles using 3D hyperspectral imaging and Transformer networks

RONG Yan ¹ ,
YANG Jinglong ^,²^,^* ,
ZHANG Pengchang ³ ,
ZENG Zimu ³

Expand

¹ School of History and Culture, Xianyang Normal University, Xianyang 712000, Shaanxi,China
² Xianyang Cultural Heritage Conservation Center,Xianyang 712000, Shaanxi,China
³ Spectral Imaging Technology Research Office of Xi’an Institute of Optics and Fine Mechanics, Chinese Academy of Sciences,Xi’an 710068, Shaanxi,China

Received date: 2025-07-02

Online published: 2025-12-17

Fold

摘要

提出了一种基于三维高光谱与Transformer的网络,用于中国中原风格与西域风格壁画的风格特征分类。通过采集壁画的高光谱图像,并构建相应的数据集,在此基础上,采用迁移学习的方法对所提出的网络进行训练。实验结果表明,与其他传统方法相比,文中方法的准确率相较于最优算法提升了0.92%,精确率提升了0.12%,召回率提升了1.4%,F₁分数提升了0.75%。此外,通过与基于彩色图像的深度学习分类方法的对比,相较于结果最优的方法,准确率提升了4.5%,精确率提升了1.9%,召回率提升了5.4%,F₁分数提升了3.7%。研究验证了高光谱信息在提升分类准确性方面的独特优势。

关键词： 高光谱成像; Transformer; 壁画风格

本文引用格式

戎岩 , 杨景龙 , 张鹏昌 , 曾子木 . 基于三维高光谱与Transformer的壁画风格自动分类方法研究[J]. 陕西师范大学学报(自然科学版), 2025 , 53(6) : 62 -70 . DOI: 10.15983/j.cnki.jsnu.2025019

Abstract

Ancient murals carry profound historical, cultural, and artistic value. A network based on 3D hyperspectral Transformer for the classification of style features of Chinese Central Plains style and Western Regions style murals is proposed. By collecting hyperspectral images of murals and constructing corresponding datasets. On this basis, the proposed network is trained using transfer learning methods. The experimental results show that compared with other traditional methods, the accuracy of this study has increased by 0.92%, the precision has increased by 0.12%, the recall has increased by 1.4%, and the F₁ score has increased by 0.75% compared to the optimal algorithm. In addition, compared with the deep learning classification method based on color images, the accuracy improved by 4.5%, the precision improved by 1.9%, the recall improved by 5.4%, and the F₁ score improved by 3.7% compared to the method with the best results.The study verified the unique advantages of hyperspectral information in improving classification accuracy.

Key words： hyperspectral imaging; Transformer; mural painting style

古代壁画作为人类文化遗产的重要组成部分,具有独特的历史、文化与艺术价值。世界各地的古代壁画风格多种多样,受到不同地域文化、历史背景和宗教信仰的影响,壁画在视觉表现、技法运用及主题内容上各具特色。无损检测技术能够在不破坏壁画的前提下,从中提取壁画制作材料及工艺的“潜信息”,这对于壁画的保护和修复至关重要。高光谱成像技术是一种先进的光学成像技术,能够在多个波长范围内同时捕捉物体的光谱信息,因此在材料成分识别领域应用广泛。与传统的彩色图像不同,高光谱成像能够提供上百甚至上千个波段的图像数据,从而捕捉到材料在不同光谱波段下的反射或发射特性(如图1所示)。这种高维度的光谱信息,使得高光谱成像技术在材料成分分析、鉴定及质量控制等方面表现出独特的优势。

显示原图|下载原图ZIP|生成PPT

图1 壁画的高光谱信息

Fig.1 Hyperspectral information of the mural

何勇等^[1]利用非接触无损的高光谱技术,针对云冈石窟第5窟壁画,识别并可视化了壁画的颜料种类及其空间分布,为壁画修复和色彩复原提供了科学依据。刘宁等^[2]通过高光谱相机采集圣祚隆长寺建筑彩画的图像,并利用ENVI软件进行光谱曲线对比分析,成功识别了6种颜料,为建筑彩画的无损检测和后续修缮提供了科学依据。樊硕^[3]通过构建彩绘颜料样本库并结合光谱反射率、颜色指纹、贝叶斯优化神经网络等方法,实现了彩绘文物的浓度映射和精确图像分割,为彩绘文物的色彩复原提供了科学依据和有效支持。赵新春^[4]利用现代信息技术、高光谱成像技术等手段,采集壁画的高保真数据,为壁画数字化档案建立和持续保护提供了科学依据,并且高光谱成像技术的应用为壁画颜料层的精准分析和文物保护提供了重要支持。杨文宗等^[5]提出了一种融合光谱分析与带通能量积分的壁画颜料色彩虚拟修复方法,通过高光谱成像技术和光谱数据分析,实现了唐墓壁画颜料的识别与色彩虚拟复原,为壁画修复提供了科学依据和视觉修复参考,具有重要的创新示范意义。首先,高光谱成像能够精确识别壁画中物质的成分和结构。每种物质在不同的光谱波段下具有独特的光谱反射特征,类似于其“指纹”。通过高光谱成像,可以对颜料等材料的光谱特征进行详细分析,进而识别其成分。

深度学习是人工智能的一个分支,基于多层神经网络来模拟人类大脑的学习方式,通过大量数据训练模型,使得计算机能够从中自动学习并提取特征、识别模式。深度学习模型通过大量的非线性变换,对数据进行逐层处理,最终实现从输入数据到输出结果的映射。其核心优势在于无需人工设计特征,通过自动化的特征学习,可以在多个领域取得突破性的进展。曹建芳等^[6]提出了一种改进的ResNet卷积神经网络,通过优化卷积层、引入多尺度空间通道注意模块和蜂窝式聚合结构,有效提升了壁画图像分类的准确率、精度和稳定性。张乐等^[7]提出了一种基于快速傅里叶卷积和坐标注意力的生成对抗网络,用于古代壁画修复,具有较大的感受野和丰富特征提取能力,实验结果表明该方法在修复效果上优于现有方法,能够有效减少人工成本并提高修复质量。田欢^[8]提出了Retinex-Pro网络模型,通过改进低照度壁画图像增强方法,结合注意力机制提升处理速度并避免过拟合,实验证明该方法在寺院壁画类文物的低照度图像增强中表现优异。王建华^[9]针对敦煌壁画轮廓线提取的挑战,提出了两种改进的边缘检测方法:一是基于多尺度特征融合和薄边缘学习的网络结构,结合空洞卷积和空间注意力模块,以提高轮廓线的精确度;二是结合CNN和Transformer的并行融合方法,通过双分支网络结构和特征交互模块增强局部细节与全局结构的融合,实验结果表明两种方法在敦煌壁画图像处理上均表现出较高的准确性和清晰度。深度学习作为一种前沿技术,在壁画保护的应用中展现了巨大的潜力。它不仅能够提高壁画修复工作的精度和效率,还能在颜料识别、损伤评估、色彩复原等方面提供创新的解决方案。随着技术的不断发展,深度学习有望在未来文化遗产保护的发展中发挥更加重要的作用,成为文物保护和修复领域的重要工具。

本文结合高光谱成像和深度学习技术,一方面对壁画的颜料材质等信息进行更深度的挖掘,另一方面则通过人工智能自动地、高效地对图案内容进行识别,实现了中国古代壁画的风格分类。

1 壁画高光谱图像的采集

本研究采用高光谱技术对壁画数据进行采集,图2是本研究采用的线推扫高光谱成像系统,由支撑组件支撑整个架构,由照明组件提供稳定的光源,驱动组件控制整个相机系统的匀速推扫,由相机组件和扫描组件获取高光谱图像。本文设备获得了壁画380~1 000 nm区间128个波段的高光谱图像。

显示原图|下载原图ZIP|生成PPT

图2 本文采用的线推扫高光谱成像仪器

Fig.2 The whiskbroom push-scan hyperspectral imaging instrument used in this study

通过线推扫方式^[10]采集壁画的高光谱图像是一种高效、精准的非接触式文物数字化技术,广泛应用于壁画的保护与修复中。该技术通过将高光谱成像系统与推扫采集方法相结合,能够在不直接接触壁画表面的情况下,实时获取壁画的光谱数据。在实际操作中,成像系统通过逐行扫描的方式,沿着壁画表面横向移动,逐步获取每一个像素点在不同波段上的反射光谱。每个像素的光谱数据可以覆盖从可见光到近红外区域的多个波段,提供从表面到深层的多维度信息。与传统的静态采样方法相比,线推扫采集能够有效避免因局部采样带来的信息遗漏,提供壁画更为完整的光谱特征。这种方式特别适用于大面积壁画的扫描,可以较为高效地获取大范围区域的高光谱图像数据,结合高光谱图像数据,研究者还可以对壁画的化学成分、材质构成、涂层厚度等进行深入分析,为文物保护提供重要的科学依据。

2 实验对象

本文的实验对象包括36幅中原风格特征的壁画和21幅西域风格特征的壁画。两种风格的壁画,虽然同属于中国壁画艺术的范畴,但由于地理、文化、宗教等多方面的差异,两者在艺术风格、表现形式和主题内容上展现出鲜明的特点。

中原风格特征通常以儒家思想和道家文化为主导,具有浓厚的民族特色和内敛的文化气质,主要出现在汉代和唐代,如河南洛阳地区的汉代壁画、陕西西安的大雁塔壁画及唐代的壁画。这些壁画的画面主题通常描绘历史人物、神话故事以及宗教场景,表现方式上倾向于对人物的细腻刻画和精神内涵的表现。中原壁画的一个显著特点是其典雅的色彩和写实的表现。无论是人物肖像、祭祀场景,还是历史故事,画面中的人物通常是端庄严肃的,比例和姿态遵循着传统的规范。例如,唐代的壁画中人物的衣饰华丽,表情生动,线条流畅而富有表现力,色彩则明丽而和谐,呈现出一种宏大且庄重的气氛。同时,中原壁画在空间和透视上并不追求西方的透视效果,而是更注重平面上的装饰性与层次感,背景常常是简单的建筑装饰或自然景观,意境深远。

相比之下,西域风格特征的壁画则受到了更多外来文化的影响,尤其是印度、希腊及波斯文化的交融,使得西域壁画呈现出更加多元化和开放性的艺术特征。此类壁画,尤其是敦煌莫高窟、克孜尔千佛洞等地的壁画,往往融入了佛教文化的精髓,表现出丰富的宗教题材和异域风情。其最显著的特点是其强烈的异域风情和文化融合感。受佛教艺术影响,该类壁画的题材多以佛像、菩萨、天王、佛教故事以及诸神传说为主,画面风格则更趋向于装饰性和象征性。在人物的表现上较为生动和夸张,人物面容圆润,衣纹流畅,色彩使用上往往更加鲜艳、对比强烈,充满了梦幻般的视觉效果。尤其是在敦煌壁画中,可以看到印度佛教艺术对中原壁画的影响,佛像的比例和姿态比中原壁画更加高大、神秘,服饰和头饰也呈现出浓厚的异域风情。此外,注重空间的开阔性和多样性,尤其在一些佛教洞窟中,壁画常常呈现出大规模的叙事场景,画面远比中原壁画复杂,有着更强的纵深感和层次感。壁画的背景常描绘异国情景,像是印度的花卉、波斯的图案等元素都常见于其中,融合了多元文化的艺术表达方式,展现了丝绸之路上文化交流的丰富性和多样性。

通过图2所示的高光谱成像设备,采集了壁画的高光谱图像,如图3所示,借助人工智能技术,通过训练一个3D-Transformer网络实现壁画风格的自动区分。

显示原图|下载原图ZIP|生成PPT

图3 本文采集的高光谱壁画(局部)图像

Fig.3 The hyperspectral mural images collected in this study

3 基于三维高光谱Transformer的分类网络

以高光谱图像和3D-Transformer为基础对壁画风格进行分类,是本文提出的一种结合光谱信息和三维结构信息进行深度学习分析的创新方法。高光谱成像技术能够以极高的空间分辨率获取壁画表面的光谱信息,涵盖了从可见光到近红外范围的多个波段。这使得它能够提供壁画表面细节的多维度信息,比如不同的颜料材料在不同的波长下有特定的光谱反应。通过对壁画的高光谱图像分析,可以识别出使用的颜料种类,这对风格分类至关重要。例如,中原壁画可能使用的是红色的朱砂,而敦煌的壁画可能使用了更为复杂的蓝色颜料(如青金石)。此外,高光谱图像可以反映颜料的分布、厚度以及涂层的层次结构。这对于区分不同历史时期、地域或宗教背景下的壁画风格非常有帮助^[11]。

3D-Transformer是一种能够处理三维空间数据并有效提取空间特征的深度学习模型。对于壁画风格分类来说,3D-Transformer的引入有助于壁画三维结构的提取:壁画往往有着复杂的表现形式和细节,尤其是在凹凸不平或呈现空间层次的部分,3D-Transformer可以从壁画的三维扫描数据中提取空间信息。此外,3D-Transformer不仅能够处理壁画的空间信息,还能够对壁画中的纹理信息如线条、图案等进行建模,通过对高光谱图像和三维模型的融合,Transformer模型可以学会如何将这些空间和纹理特征进行综合考虑,提高分类的准确性。

本文的网络架构如图4所示。高光谱数据以三维张量形式输入网络,其维度为H×W×B(高度×宽度×波段数)。为保留光谱-空间联合特征,采用波段分组归一化和光谱-空间立方体构建的并行处理策略。波段分组归一化将整个光谱范围按可见光(380~780 nm)和近红外(780~1 000 nm)分成两组,分别进行Min-Max归一化,缓解不同波段间的量纲差异。光谱-空间立方体构建操作以每个像素为中心,截取局部空间邻域及其完整光谱曲线,形成数据立方体作为基本处理单元。

显示原图|下载原图ZIP|生成PPT

图4 本文的网络架构

Fig.4 The network architecture proposed in this study

对于Transformer,将图像中的多个补丁输入Transformer编码器中,该编码器捕获图像中的远程关系并动态计算自关注权值以进行自适应建模。为了实现高光谱图像不同波段之间的交互信息,提出了一种基于Transformer的三维高光谱图像分类分解编码器,该编码器由两个串联的Transformer编码器组成。第一个Transformer编码器探索从高光谱图像的同一波段中提取的标记之间的相互作用,以学习每个切片的潜在表示。第二个Transformer编码器模拟了不同波段之间的相互作用。

具体来说,对于一个波段特征图

v i j

,首先,提取p个不重叠的特征块并输入全连通层中。接下来,所有切片补丁都被平铺成词元(token),输入第一个Transformer的编码器的词元序列如下:

(1)

Z i j

z i c l s j; v i j

E i j

。

式中:

z i c l s j

是已学习的属于第j个类别的学习分类标记,该波段特征图及其输出作为第一个Transformer编码器的最终波段表示;

E i j

是第1个波段特征映射的学习位置嵌入。最后,将词元序列送入第一个Transformer编码器,该编码器由多头自注意力机制、层归一化和多层感知器块组成,其机制如下式表示:

(2)

Z i j'

=MSA(LN(

Z i j

))+

Z i j

。

(3)

p i j

=MLP(LN(

Z i j'

))+Z^j'。

式中:MSA代表多头自注意力机制^[12];LN代表层归一化^[13];MLP代表多层感知器块^[14];

p i j

是通过基于

z i c l s j

对编码输入进行分类来学习的。

将第一个Transformer编码器学习到的高光谱特征

x i p

合并,进行线性投影,然后网格化成词元R_i∈R^s^×^d。输入第二个Transformer编码器的词元序列如下所示:

(4)K_i=[

k i c l s j

;R_i]+P_i。

式中:

k i c l s j

是学习到的分类词元;P_i是学习得到的位置嵌入。词元序列被馈送到第二个Transformer编码器如下:

(5)K_i'=MSA(LN(K_i))+K_i。

(6)r_i=MLP(LN(K_i')+K_i'。

式中,r_i用于最终模型分类。

三维卷积自编码器在编码器阶段,通过交替的3D卷积和池化操作,逐步将光谱维度从原始波段压缩至语义特征层,此过程保留了对颜料分类最关键的光谱吸收/反射特征。预训练完成后,编码器最后一个卷积层每个空间位置的特征向量隐含了对应区域的光谱响应模式,这些特征图将作为Transformer的输入词元。

最后,利用多层感知器头部预测标签l_i进行高光谱分类。具体来说,将分解编码器的输出r_i馈送到归一化层和两个全连接层:

(7)l_i=Softmax(MLP_head(r_i))。

式中,Softmax()是激活函数。

本研究将焦点损失作为交叉熵损失的扩展,用于壁画高光谱图像的分类,并通过测量难分类和易分类样本对总损失函数的贡献来解决类别不平衡问题。为了表示方便,将预测的标签向量定义为l_i=[l₁_i,l₂_i,…,l_bi]。如果第i个实例属于正确的类别m,则u_i=l_mi。焦点损失为

(8)L=

1 N ∑ i = 1 N

-α_i

(1 - u i) γ

lnu_i。

式中:α_i是权重因子;

(1 - u i) γ

是调制因子;γ≥0是可调的焦点参数。

由于高光谱壁画的数据集较小,将迁移学习应用于特征图的提取。图5显示了三维卷积自编码器的框架。由于三维卷积自编码器可以最大限度地挖掘空间结构信息进行特征提取,为了提取具有更多底层空间结构信息的高光谱壁画特征图,预先在预处理的Pavia University数据集上通过重建损失训练三维卷积自编码器。三维卷积自编码器包含一组编码器和一组解码器。编码器包括4个3D卷积层Conv3D₁、Conv3D₂、Conv3D₃、Conv3D₄。其中,Conv3D₁的通道数为16,卷积核大小为3;Conv3D₂的通道数为32,卷积核大小为3;Conv3D₃的通道数为96,卷积核大小为2;Conv3D₄的通道数为1,卷积核大小为1。随后是4个池化层Pool3D₁、Pool3D₂、Pool3D₃、Pool3D₄,其中池化层Pool3D₁核大小为2,步长为2;池化层Pool3D₂核大小为3,步长为3;池化层Pool3D₃核大小为2,步长为2;池化层Pool3D₄核大小为2,步长为2。最后接一个全连接层。解码器则由一个全连接层,4个3D反卷积层,3个最大池化层组成,其核大小与下采样过程一一对应。随后,将预训练的数据集进行训练,将编码器的最后一个卷积层的输出保存为基于Transformer的分解编码器的特征图,实现小样本迁移学习。

显示原图|下载原图ZIP|生成PPT

图5 采用重构损失法训练三维卷积自编码器

Fig.5 Training the 3D convolutional autoencoder using the reconstruction loss method

4 实验结果

4.1 实验数据集

实验数据集为高光谱壁画数据集。其中,中原壁画36幅、西域壁画21幅。每幅壁画在空间维度被分割为30个高光谱数据块,形成了1 080个中原壁画块和630个西域壁画块的数据集。本文的数据增强方法包括空间维和光谱维两方面的增强,以应对潜在的过拟合风险。空间维的增强策略包括通过空间上的局部遮挡增强模拟壁画剥落、污渍,其中随机遮挡块的面积占5%~10%;以及通过幅度<5%的轻微弯曲或拉伸模拟墙面不平整或拍摄畸变。光谱维的数据增强包括对光谱维度施加乘性噪声和加性噪声以模拟不同的光照角度或环境光的影响;以及对特定波段施加指数衰减噪声以模拟颜料的退化。

4.2 模型参数

采用ADAM优化器^[15]对本文的网络进行训练。ADAM优化器是深度学习中常用的一种自适应学习率优化算法,其能够动态调整学习率,减少梯度波动,通过一阶矩和二阶矩估计来计算每个参数的自适应学习率,并通过偏差修正来提高训练初期的准确性。通过调整每个参数的学习率来加速训练,并且使训练过程更为稳定。学习率为10^-4,指数衰减率从0.5到0.999。此外,应用了10倍交叉验证,生成包含不同训练集和测试集的10组数据,用于训练模型并计算测试精度。在每个分割中,90%的数据用于训练,其余10%用于测试,选取10组测试结果的平均值作为最终结果。

4.3 方法对比

对比了本文方法与多种前沿的高光谱图像分类算法^[16-20]的分类准确率、精确率、召回率、F₁评分,如表1所示。

表1 各方法的分类精度指标对比

Tab.1 Comparison of classification accuracy metrics for different methods

方法	准确率	精确率	召回率	F₁评分
文献[16]	0.943 8	0.975 8	0.934 2	0.954 5
文献[17]	0.954 9	0.981 7	0.946 2	0.963 6
文献[18]	0.947 9	0.980 6	0.936 1	0.957 8
文献[19]	0.930 9	0.966 0	0.923 1	0.944 1
文献[20]	0.946 7	0.969 6	0.945 3	0.957 3
本文方法	0.963 7	0.982 9	0.959 2	0.970 9

注:加粗表示最优。

在评价指标上,本文方法的准确率、精确率、召回率和F₁评分在各方法中均是最优秀的,对比算法皆为面向高光谱图像分类任务提出的较为新颖方法,在此任务上取得了一定的效果,但仍面临以下潜在问题:文献[16]方法中采用的残差3D-CNN的卷积核对于捕捉壁画中长距离光谱-空间关联在此任务中不利于捕捉颜料退化区域与完好区域的渐变关系;文献[17]中壁画高光谱的频域特征可能包含大量与分类无关的高频噪声;文献[18]在特征交互方式和模态对齐方面可能面临挑战;文献[19]的方法面临邻域适配偏差的问题;文献[20]中双分支结构可能因壁画数据的低空间分辨率导致空间分支贡献有限。本文方法中自注意力机制直接关联任意两个像素-波段位置,适合捕捉壁画中跨区域的非局部特征,而Transformer可自动学习不同波段的重要性权重,能有效把控颜料颗粒的局部细节和壁画主题的全局语义,因此取得了较好的分类效果。图6则是各方法的混淆矩阵,可以发现无论是将中原风格特征的壁画误判为西域风格特征的壁画,还是将西域风格特征的壁画误判为中原风格特征的壁画的两种情况,本文方法的误判程度都足够小。

显示原图|下载原图ZIP|生成PPT

图6 不同方法混淆矩阵对比

Fig.6 Comparison of confusion matrices of different methods

表2为损失函数中α取值对实验结果的影响。实验结果表明,相对于仅采用交叉损失函数的方法,焦点损失在α=0.25时能一定程度上提升分类精度,其原因在于交叉熵损失在α=0.25时对所有样本平等对待,导致模型偏向多数类(中原壁画),少数类(西域壁画)的分类边界模糊,且其对高置信度样本的梯度更新权重较大。而焦点损失通过调制因子减少了高置信度样本的损失贡献,且一定程度上缓解了少数类因样本少导致的训练不足问题。

表2 损失函数中α取值对实验结果的影响

Tab.2 Impact of the α value in the loss function on experimental results

α取值	0	0.25	0.5	0.75	1
准确率	0.956 3	0.963 7	0.949 2	0.940 9	0.928 8

表3则验证了本方法通过采集高光谱图像对分类结果的提升(加粗表明最优)。将壁画的高光谱图像通过抽取700.0 nm、546.1 nm和435.8 nm三个波段的灰度图像输入到RGB三个波段融合成彩色图像,与以彩色图像为对象的深度分类方法进行对比。对比的算法包括VGG19^[21]、GoogleNet^[22]、ResNet^[23]和vision Transformer(ViT)^[24]。

表3 本文方法与基于彩色图像的深度学习分类方法对比

Tab.3 Comparison of the proposed method with deep learning classification methods based on color images

方法	准确率	精确率	召回率	F₁评分
VGG19	0.881 2	0.933 7	0.874 0	0.902 9
GoogleNet	0.902 3	0.947 9	0.894 4	0.920 4
ResNet-50	0.912 8	0.954 1	0.905 5	0.929 2
ViT	0.922 2	0.964 6	0.910 1	0.936 6
本文方法	0.963 7	0.982 9	0.959 2	0.970 9

注:加粗表示最优。

由表3的结果可以看出,基于彩色图像的壁画风格分类网络结果尚可,但与本文采用高光谱图像的方法相比有较大的不足,进一步验证了高光谱信息在这一任务上的重要程度。

5 结语

本文提出了一种基于三维高光谱Transformer的网络用于壁画的风格分类任务。通过采集一定数量中原风格特征的壁画与西域风格特征的壁画的高光谱图像,整合数据集,通过迁移训练的方法训练了此网络。实验结果表明,相较于其他方法,本文所述方法在这一任务上取得了更为突出的结果。

本研究在以下层面具有实质意义的突破:首先,在光谱特征利用层面,准确率提升意味着本文方法具备更优的高光谱特征提取能力,为艺术史分期提供更精细的判别依据;其次,在模型优化层面,焦点损失缓解了中原风格样本的支配效应,三维Transformer的光谱注意力自动强化了颜料光谱特征。这些特定场景的显著改进证明,即便不同时代的壁画整体特征相近,本文方法仍能为文物保护提供更可靠的决策依据。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	何勇, 李丽红, 宁波, 等. 高光谱无损技术在云冈石窟第5窟壁画颜料分析中的应用[J]. 石窟寺研究, 2024(1):227-239. HE Y, LI L H, NING B, et al. Application of hyperspectral nondestructive technique in pigment analysis of cave 5 at Yungang Grottoes[J]. Studies of the Cave Temples, 2024(1):227-239.

[2]	刘宁, 傅凡, 张曼. 基于高光谱技术的隆长寺建筑彩画分析[J]. 室内设计与装修, 2024(5):126-127. LIU N, FU F, ZHANG M. Analysis of Longchang temple architectural painting based on hyperspectral technology[J]. Interior Design + Construction, 2024(5):126-127.

[3]	樊硕. 基于光谱的彩绘颜料映射与图像分割研究[D]. 曲阜: 曲阜师范大学, 2024.

[4]	赵新春. 高光谱成像技术在壁画保护研究中的应用:以大同关帝庙壁画为例[J]. 文物鉴定与鉴赏, 2023(21):13-19. ZHAO X C. Application of hyperspectral imaging technology in the study of mural protection:taking the mural of Guandi temple in Datong as an example[J]. Identification and Appreciation to Cultural Relics, 2023(21):13-19.

[5]	杨文宗, 唐兴佳, 张朋昌, 等. 基于融合光谱分析的墓葬壁画颜料色彩虚拟修复方法研究[J]. 文物保护与考古科学, 2023, 35(4):11-23. YANG W Z, TANG X J, ZHANG P C, et al. Research on a method for virtual restoration of the colors of tomb mural pigments based on spectral fusion analysis[J]. Sciences of Conservation and Archaeology, 2023, 35(4):11-23.

[6]	曹建芳, 彭存赫, 陈志强, 等. 基于改进ResNet深度学习的古代壁画分类方法[J]. 电子测量技术, 2025, 48(1):186-196. CAO J F, PENG C H, CHEN Z Q, et al. Classification of ancient murals based on improved ResNet deep learning[J]. Electronic Measurement Technology, 2025, 48(1):186-196.

[7]	张乐, 余映, 革浩. 基于快速傅里叶卷积与特征修剪坐标注意力的壁画修复[J]. 计算机科学, 2024, 51(S1):338-346. ZHANG L, YU Y, GE H. Mural inpainting based on fast Fourier convolution and feature pruning coordinate attention[J]. Computer Science, 2024, 51(S1):338-346.

[8]	田欢. 基于深度学习算法的低照度寺院壁画图像增强研究[J]. 黑河学院学报, 2024, 15(5):136-139. TIAN H. Low-light enhancement in temple mural images based on deep learning algorithm[J]. Journal of Heihe University, 2024, 15(5):136-139.

[9]	王建华. 基于多尺度特征的敦煌壁画轮廓线提取方法研究[D]. 兰州: 西北民族大学, 2024.

[10]	王书民, 张爱武, 胡少兴, 等. 线推扫式高光谱相机侧扫成像几何校正[J]. 红外与激光工程, 2014, 43(2):579-585. WANG S M, ZHANG A W, HU S X, et al. Geometric correction of linear push-broom hyperspectral camera side-scan imaging[J]. Infrared and Laser Engineering, 2014, 43(2):579-585.

[11]	张立福, 王飒, 张燕, 等. 文保领域的高光谱遥感技术应用进展[J]. 测绘学报, 2023, 52(7):1126-1138. DOI ZHANG L F, WANG S, ZHANG Y, et al. Progress of hyperspectral remote sensing applications on cultural relics protection[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(7):1126-1138. DOI

[12]	王虎, 王晓峰, 李可, 等. 融合多头自注意力的标签语义嵌入联邦类增量学习方法[J]. 计算机应用, 2025, 45(10):3083-3090. DOI WANG H, WANG X F, LI K, et al. Federated class-incremental learning method with multi-head self-attention for label semantic embedding[J]. Journal of Computer Applications, 2025, 45(10):3083-3090. DOI

[13]	谭立玮, 张淑军, 韩琪, 等. 面向医学影像报告生成的门归一化编解码网络[J]. 智能系统学报, 2024, 19(2):411-419. TAN L W, ZHANG S J, HAN Q, et al. Gate normalized encoder-decoder network for medical image report generation[J]. CAAI Transactions on Intelligent Systems, 2024, 19(2):411-419.

[14]

张奥, 张文. 融合卡方统计量和多层感知器的医院麻醉数据挖掘与动态调整研究[EB/OL].[2025-07-02]. https://link.cnki.net/urlid/23.1474.TP.20241224.0835.012.

ZHANG

, ZHANG

. Research on hospital anesthesia data mining and dynamic adjustment by integrating Chi square statistics and multi layer perceptron[EB/OL].[2025-07-02]. https://link.cnki.net/urlid/23.1474.TP.20241224.0835.012.

[15]	刘欢, 徐德勃, 张涵涛, 等. 基于Adam算法的LMS优化[J]. 电子制作, 2024, 32(12):114-116,113. LIU H, XU D B, ZHANG H T, et al. LMS optimization based on Adam algorithm[J]. Practical Electronics, 2024, 32(12):114-116,113.

[16]	潘增滢, 吴瑞姣, 林易丰, 等. 改进的残差式3D-CNN和近邻注意力的高光谱遥感图像分类[J]. 自然资源遥感, 2025, 37(5):101-112. PAN Z Y, WU R J, LIN Y F, et al. Improved residual 3D-CNN and neighborhood attention for hyperspectral remote sensing image classification[J]. Remote Sensing for Natural Resources, 2025, 37(5):101-112.

[17]	王建尚, 张冰涛, 王小敏, 等. 基于频空融合与3D-CNN-Attention的抑郁症识别[J]. 中国医学物理学杂志, 2024, 41(10):1307-1314. WANG J S, ZHANG B T, WANG X M, et al. Depression recognition based on frequency-space domain fusion and 3D-CNN-Attention[J]. Chinese Journal of Medical Physics, 2024, 41(10):1307-1314.

[18]	孟龙祥, 李奇. 基于文本-光谱特征联合学习的高光谱图像分类算法[J]. 电脑与信息技术, 2024, 32(5):7-11. MENG L X, LI Q. Hyperspectral image classification algorithm based on textual-spectral feature joint learning[J]. Computer and Information Technology, 2024, 32(5):7-11.

[19]	王鑫, 程远, 张若愚, 等. 基于高光谱成像技术的石质文物风化赋存环境分类方法[J]. 激光与光电子学进展, 2025, 62(10):421-430. WANG X, CHENG Y, ZHANG R Y, et al. Classification of weathering environments for stone cultural heritage based on hyperspectral imaging technology[J]. Laser & Optoelectronics Progress, 2025, 62(10):421-430.

[20]	杜天娇, 张永生, 包利东. 基于双分支残差网络的高光谱图像分类[J]. 激光与光电子学进展, 2024, 61(22):392-400. DU T J, ZHANG Y S, BAO L D. Hyperspectral image classification using dual-branch residual networks[J]. Laser & Optoelectronics Progress, 2024, 61(22):392-400.

[21]	周浩, 陈善本. 基于视觉注意VGGNet的中厚板低碳钢多层多道熔池分类模型[J]. 焊接学报, 2024, 45(11):71-76. ZHOU H, CHEN S B. A MLMP welding pool classification model for medium-thick low-carbon steel plates based on a VGGNet with a visual attention mechanism[J]. Transactions of the China Welding Institution, 2024, 45(11):71-76.

[22]	李磊, 赵彦喆, 米玉泽, 等. 基于D-GoogLeNet深度学习的呼气丙酮检测方法[J]. 长春工业大学学报, 2024, 45(6):481-488,585. LI L, ZHAO Y Z, MI Y Z, et al. Study of breath acetone detection based on D-GoogLeNet deep learning algorithm[J]. Journal of Changchun University of Technology, 2024, 45(6):481-488,585.

[23]	翟乃强. 基于ResNet的象棋文字识别研究[J]. 青岛远洋船员职业学院学报, 2024, 45(4):26-29. ZHAI N Q. Research on chess text recognition based on ResNet[J]. Journal of Qingdao Ocean Shipping Mariners College, 2024, 45(4):26-29.

[24]	葛奕辰, 张明. 基于Transformer融合全局和局部特征的显著性检测方法[J]. 湖北民族大学学报(自然科学版), 2024, 42(4):464-469. GE Y C, ZHANG M. Saliency object detection method fusing global and local features based on Transformer[J]. Journal of Hubei Minzu University (Natural Science Edition), 2024, 42(4):464-469.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

图1 壁画的高光谱信息

1 壁画高光谱图像的采集

图2 本文采用的线推扫高光谱成像仪器

2 实验对象

图3 本文采集的高光谱壁画(局部)图像

3 基于三维高光谱Transformer的分类网络

图4 本文的网络架构

图5 采用重构损失法训练三维卷积自编码器

4 实验结果

4.1 实验数据集

4.2 模型参数

4.3 方法对比

表1 各方法的分类精度指标对比

图6 不同方法混淆矩阵对比

表2 损失函数中α取值对实验结果的影响

表3 本文方法与基于彩色图像的深度学习分类方法对比

5 结语

参考文献