基于双分支注意力融合网络的贺兰山岩画图像分类

樊晔; 王阳

doi:10.15983/j.cnki.jsnu.2025018

陕西师范大学学报(自然科学版) >

2025 , Vol. 53 >Issue 6: 51 - 61

DOI: https://doi.org/10.15983/j.cnki.jsnu.2025018

人工智能专题

基于双分支注意力融合网络的贺兰山岩画图像分类

樊晔 ^,¹^,^* ,
王阳 ²^,³

展开

¹ 西北大学图书馆,陕西西安 710127
² 西北大学科学史高等研究院,陕西西安 710127
³ 陕西省文化遗产数字人文重点实验室,陕西西安 710127

^* 樊晔,女,馆员,主要从事岩画学及文化遗产数字保护研究。E-mail:303844609@qq.com

Office editor: 宋轶文

收稿日期: 2025-07-08

网络出版日期: 2025-12-17

基金资助

教育部人文社科研究青年基金(24YJCZH047)

收起

Rock art image classification of Helan Mountain based on dual-branch attention fusion network

FAN Ye ^,¹^,^* ,
WANG Yang ²^,³

Expand

¹ Library,Northwest University,Xi’an 710127,Shaanxi,China
² Institute for Advanced Study in History of Science, Northwest University,Xi’an 710127,Shaanxi,China
³ Northwest University Shaanxi Provincial Key Laboratory of Digital Humanities for Cultural Heritage,Xi’an 710127,Shaanxi,China

Received date: 2025-07-08

Online published: 2025-12-17

Fold

摘要

岩画作为一种特殊的历史文化遗产,其数量大、分布广,图像分类面临复杂元素交叉干扰的挑战,难以实现高效准确的分类识别,而深度学习等技术的发展为岩画的保护研究提供了新的契机。基于此,提出一种双分支注意力融合网络(DBAFN),融合ResNet50的局部特征提取能力与ViT(vision Transformer)的全局语义建模能力,以贺兰山岩画为例,通过门控注意力机制动态加权特征,提升岩画分类精度。在包含1 200幅贺兰山岩画图像(人面像、动物、狩猎场景)的数据集上,DBAFN实现85.62%的分类准确率,较单一ResNet50(81.46%)和单一ViT(80.02%)提升显著,其中狩猎岩画F₁值提高至82.35%。实验表明,该网络能有效解决岩画误分类问题,为文化遗产语义解析与跨学科研究提供新路径,助推人工智能在文化遗产数字化保护领域的应用。

关键词： 贺兰山岩画; 双分支注意力融合网络; 图像分类; 门控注意力机制; 深度学习

本文引用格式

樊晔 , 王阳 . 基于双分支注意力融合网络的贺兰山岩画图像分类[J]. 陕西师范大学学报(自然科学版), 2025 , 53(6) : 51 -61 . DOI: 10.15983/j.cnki.jsnu.2025018

Abstract

As a distinctive historical and cultural heritage, rock art faces significant challenges in image classification due to its vast quantity, wide distribution and complex overlapping elements, which hinder efficient and accurate identification. Recent advances in deep learning offer new opportunities for rock art conservation research. A dual-branch attention fusion network (DBAFN) that integrates the local feature extraction capability of ResNet50 with the global semantic modeling strength of ViT(vision Transformer) is proposed. Using Helan Mountain rock art as a case study, our method employs a gated attention mechanism to dynamically weight features, significantly enhancing classification accuracy. Evaluated on a dataset containing 1 200 Helan Mountain rock art images (human faces,animals,hunting scenes), DBAFN achieves a weighted average classification accuracy of 85.62%, outperforming standalone ResNet50 (81.46%) and ViT (80.02%) models. Notably, the F₁-score for hunting scenes reaches 82.35%. Experiments demonstrate that DBAFN effectively resolves misclassification caused by interleaved elements, providing an innovative technical pathway for semantic analysis of cultural heritage and interdisciplinary research while advancing the application of artificial intelligence in digital conservation of cultural relics.

Key words： Helan Mountain rock art; dual-branch attention fusion network(DBAFN); image classification; gated attention mechanism; deep learning

让文化遗产“活起来”成为新时代文化、经济建设的重要内容。岩画作为人类早期文化遗产,是远古人类用不同方法制作于岩石上的图形或符号,形象地记载了远古时期人类的生产生活方式、文化艺术形式及自然环境,见证了人类文明的起源和发展。但是,目前现有研究多聚焦于岩画符号的静态分类或单一模态研究,如图像数据库建设等,缺乏对符号间语义关联及知识融合的探索。本研究结合深度学习技术,构建可扩展的岩画语义网络,通过比较岩画图像特征,分析其模式和结构,梳理不同地区岩画图像之间的关系,为文化遗产语义解析与跨学科研究提供新路径,助推人工智能在文化遗产数字保护领域的推广应用。

1 相关工作

国内外不同学科专家学者从考古、历史、宗教、艺术、文献等方面对岩画进行了广泛深入的调查研究,初步构建了岩画学理论体系和方法论体系,为岩画文化遗产的保护研究奠定了坚实的基础。联合国教科文组织将一些信息化手段纳入文化遗产保护的范畴,这些手段包括采用光学三维运动捕捉系统(Pioooo motion capture system,PIMC)等,这些技术已被列为文、图、音、像之后的第5种文化遗产记录和保护方式,并被广泛推广作为非物质文化遗产保护的关键手段之一。

贺兰山岩画是中国岩画乃至世界岩画的代表,数以万计的贺兰山岩画以其丰富多彩的题材内容、灵活多变的表现形式,记录了史前人类的生产生活、宗教信仰与艺术活动,是研究中华文明起源与早期文化交流的重要载体。多年来,众多国内外学者就贺兰山岩画的分布范围、制作方法、题材内容、保护技术进行了广泛而深入的研究,取得了丰硕的成果,但贺兰山岩画依然存在岩画本体保护困难、数据信息有误差、数据库不完善等问题。

随着数字技术的发展,特别是近年来数字人文方法广泛运用到人文社科研究领域,为相关学科的研究开辟了新的路径,以人工智能为代表的一系列算法、技术的出现,为岩画研究提供了全新的视野,岩画研究逐步转向数字化与智能化。文献[1]在对国内外岩画概述的基础上,系统论述了岩画文化遗产数字人文保护的新形势、新模式与新方法,并选取岩画图形文字符号模糊识别、岩画断代数字化发展趋势、岩画文化遗产数据库建设与开发利用等专题进行研究。束锡红等^[2]认为数字人文技术为岩画图形文字符号研究提供了一个全新的应用方向,通过数字识别技术对岩画图形文字符号与甲骨文文字的相似度进行数字模糊识别与分析,发现二者之间存在一定的关联性。张亚莎等^[3]基于数字人文的大时代背景,通过对岩画的结构体系、调查、管理这三方面的分析,对中国岩画目前面临的机遇与挑战进行阐释^[3]。此外,文献[4 -7]则从应用技术角度出发,将一些先进的检测、修复和分类技术运用到岩画保护、研究之中,进一步扩充岩画的数字人文研究领域。国外在此方面也有许多新的成果,2020年,希腊伊奥阿尼纳大学岩画研究团队^[8]开发了两种自动检测岩画点的方法,并在三个岩画点进行实验,发现岩画图像背景在检测中比岩画本身更有用。2021年,Kowlessar等^[9]利用AlexNet、VGG和ResNet模型对澳大利亚阿纳姆岩画艺术风格进行分类,并尝试构建岩画风格年表。同年,澳大利亚Jalandoni团队^[10]通过深度学习方法检测岩石图像中的岩画,验证了此类方法在岩画研究中的可行性。此外,Horn等^[11]结合R-CNN、数据增强及从3D扫描生成的图像进行迁移学习,创建了用于定位和分类瑞典岩画图像的模型。这些研究证明了深度学习在岩画检测和分类中的有效性,为岩画研究的未来发展提供了支持,并为我国岩画图像识别研究提供了宝贵的参考。

此外,在图像分类领域,常见的方法如ResNet50^[12]和ViT(vision Transformer)^[13]在不同应用场景中各展所长。ResNet50凭借其经典的卷积神经网络架构和残差连接,在众多领域展现了卓越的性能。例如医疗领域,基于改进ResNet50的中药材分类识别方法,为中药材分类领域的后续研究工作提供了支持及优化方向^[14],同时,基于GoogLeNet-ViT模型可以有效识别心律不齐标签^[15]。在遥感图像分类领域,岩心岩性是反映地质条件的重要指标,改进ResNet50有效提高了对复杂岩心结构的识别精度与鲁棒性^[16],且基于ViT-D-UNet的双分支遥感网络对地云影检测有很大帮助^[17]。在农业领域,ResNet50可以有效识别玉米病虫害^[18],融合ViT和通道注意力方法能够满足水稻病害识别需求^[19]。自动驾驶领域,基于改进的ResNet50网络能够在自动驾驶场景中对天气进行有效识别^[20],Ando等^[21]在ViT基础上提出RangeViT 的方法,能够有效将室外LiDAR点云的语义分割转换为2D问题。Jeong团队^[22]利用ResNet-50和ViT的混合深度学习模型Hybrid-DC实现了高精度的钢材表面缺陷的分类,Solak^[23]将视觉转换器IN-ViT与ResNet-50融合在一起,满足了对快速、无创诊断猴痘的迫切需求。文献[24 -27]则是探索一些双分支融合结构在不同领域应用中的有效性。目前,在岩画识别与分类领域尚缺乏此类融合算法的应用。

在以往研究的基础上,本文将基于ResNet50和ViT的融合模型引入岩画识别与分类研究之中,对所获取的岩画图像进行岩画分类实验。根据贺兰山岩画图像的分布区域、题材内容、文化内涵等进行图像分类,关联不同区域具有相似造型特征、文化特征的岩画图像,提高层次化特征提取能力,解决岩画数字化保护中的特征提取问题,为文化遗产数字化保护与智能化研究探索新的路径。

2 实验方法

贺兰山岩画图像具有复杂的语义特征,既需捕捉局部细节,如符号纹理、边缘,又需理解整体构图,如符号间的文化关联。ResNet50与ViT是两种常见的分类模型,但两种模型在实际使用时各有优劣。如表1所示,ResNet50作为卷积神经网络,凭借卷积层与残差模块,局部特征提取能力强,适合捕捉岩画纹理、形状等细节,但全局把握欠佳,小样本需数据增强;ViT基于Transformer,经自注意力、位置编码和FFN提取特征,全局上下文捕捉能力强,利于理解岩画整体语义,但小样本时需预训练加微调。

表1 两种模型对比

Tab.1 Comparison of two models

对比维度	ResNet50	ViT
网络类型	CNN	Transformer
特征提取方式	卷积层+残差模块	自注意力+位置编码+FFN
适用场景	梯度优化、轻量化模型	全局依赖建模、数据增强
小样本表现	需依赖数据增强	需预训练+小样本微调
岩画图像特征提取优势	局部特征提取能力强,适合纹理、形状等细节特征的提取	全局上下文信息捕捉能力强,适合理解岩画的整体内容和语义信息

基于此,本文提出基于ResNet50和ViT的双分支结构的融合模型(DBAFN),分别提取局部与全局特征,融合互补,使其更好地应用于岩画分类任务。其网络架构如图1所示,该模型包含两个分支,分别是局部特征提取分支和全局特征提取分支,局部特征对于岩画图像分类至关重要,双分支结构利用ResNet分支实现岩画局部特征的提取,增加局部特征在融合分类中的比重,帮助模型更好地理解岩画的细节信息。Transformer分支提取岩画的全局特征,实现对岩画整体布局和语义信息的把握,解决单一特征提取方法难以全面捕捉岩画复杂特征的问题。

显示原图|下载原图ZIP|生成PPT

图1 双分支注意力融合网络模型结构图

Fig.1 Architecture of the dual-branch attention fusion network model

提取到的局部特征和全局特征经特征对齐模块在维度和空间上进行对齐后,进入门控注意力模块动态调整权重,并通过权重融合模块进行融合,生成融合特征表示。融合后的特征经全局平均池化层降维,输入到全连接层,并通过Softmax函数输出分类结果。为提升模型性能,本文采用迁移学习方法,通过加载预训练权重对模型进行初始化,加速训练过程并缓解小样本数据集带来的过拟合问题,提升模型在贺兰山岩画分类任务中的性能。

2.1 双分支结构

分支网络架构由两个并行的主干分支组成,每个分支处理岩画图像的不同特征,最终生成的特征图将用于后续的特征融合。具体而言,局部特征提取分支以ResNet为基础架构,输入图像经小波分析(wavelet)模块预处理以增强边缘和纹理信息后,依次通过ResNet的模块1~4进行特征提取,依次将图像尺寸从3×256×256转换为64×128×128,最终到512×16×16。在模块4之后引入注意力机制模块CBAM,对局部特征进行通道和空间维度的注意力加权,增强关键局部特征的表达,提升模型对岩画局部细节的捕捉能力,最终输出局部特征。全局特征提取分支采用Transformer架构,输入图像经块嵌入(patch embedding)模块处理为序列化特征,随后依次通过两个Transformer编码器提取全局上下文信息,最终输出全局特征。ResNet50分支通过卷积核捕捉凿刻岩画锐利边缘的高频特征与磨刻岩画平滑过渡的低频特征,而ViT分支利用自注意力建模符号间的文化语义关联,如狩猎场景中弓箭与动物的空间关系。

2.2 特征对齐模块

针对贺兰山岩画图像分类任务中存在的局部—全局特征异构性问题,本研究提出特征对齐模块(feature alignment module,FAM),其核心功能是解决双分支特征的空间与语义维度失配,通过双流协同对齐机制实现特征兼容性转换。岩画图像的局部细节特征F_res与全局语义特征F_vit存在空间维度失配、通道维度不一致等差异。其中,高频特征捕捉凿刻纹理,直接融合将导致特征混淆,降低模型判别性。因此,本文采用可变形卷积网络(deformable convolutional network,DCN)实现空间维度扩展,公式为

(1)

F v i t s p a t i a l

=D_CN(F_vit;Θ_d),Θ_d={Δp_k,Δm_k

} k = 1 K

。

式中:Δp_k为可学习偏移量;Δm_k∈[0,1]^16×16为调制标量;K=9为卷积核尺寸;通过坐标变换将全局向量F_vit映射为空间特征图

F v i t s p a t i a l

∈R^16×16×512,实现与F_res的空间维度对齐。其次,引入跨模态注意力进行语义校准,式中W_q,W_k,W_v∈R^512×512为投影权重,d_k=64为缩放因子。该操作使局部特征在语义指导下进行重加权,消除岩画元素间的语义冲突。

(2)Q=LayerNorm(F_res)W_q,

(3)K=LayerNorm(

F v i t s p a t i a l

)W_k,

(4)V=LayerNorm(

F v i t s p a t i a l

)W_v,

(5)A_tt=Softmax

Q K T d k

(6)F_align=GeLU(A_tt·V)+F_res。

通过特征相似度度量验证对齐效果,公式为

(7)D_align=1-

< φ (F r e s), φ (F v i t s p a t i a l) > ‖ φ (F r e s) ‖ 2 · ‖ φ (F v i t s p a t i a l) ‖ 2

。

式中:φ为特征映射函数;该模块最终输出对齐特征F_align∈R^{16×16×1 024},其通道维度扩展为1 024以保留双分支信息。对齐后的特征在岩画中精确聚焦关键元素,例如人形轮廓与动物图形,为后续融合奠定基础。

2.3 门控注意力融合模块

岩画元素的空间分布具有文化语义聚集性,如狩猎场景中人物—动物密集交互,在特征对齐模块输出的基础上,本研究提出门控注意力融合模块(gated attention fusion module,GAFM),其核心创新在于通过空间—通道双维度门控机制,通过空间注意力门(公式8)强化局部特征关联,通道门(公式9)抑制特定区域响应,动态调节局部细节特征与全局语义特征的融合权重。具体结构如图2所示,该模块由门控权重生成和特征融合两个关键阶段组成,能自适应增强岩画图像中的判别内容特征。

显示原图|下载原图ZIP|生成PPT

图2 门控注意力融合模块结构示意图

Fig.2 Schematic diagram of the gated attention fusion module

针对岩画元素的空间分布特性,设计空间注意力门,公式为

(8)G_s=σ

C 3 × 3 F a l i g n l o c a l; F a l i g n g l o b a l

。

式中:σ为Sigmoid激活函数;C_3×3为3×3卷积层,输出值域[0,1];[·;·]表示通道拼接;G_s∈R^16×16×1为空间权重图。

为捕捉不同文化符号的语义重要性,构建通道注意力门,公式为

(9)G_c=σ(MLP(AvgPool(F_align))),MLP(x)=W₂δ(W₁x+b₁)+b₂。

式中:δ为ReLU激活函数;W₁、W₂为全连接层权重;G_c为通道权重向量。

在特征融合策略中,基于双门控权重进行特征调制,公式为

(10)F_gate=G_s⊗G_c⊗

F a l i g n l o c a l

+(1-G_s)⊗(1-G_c)⊗

F a l i g n g l o b a l

。

式中,⊗表示逐元素相乘。当G_s和G_c同时趋近1时,强依赖局部细节特征,当G_s和G_c同时趋近0时,侧重全局语义特征,其余状态实现自适应平衡。为避免信息损失,引入残差连接,公式为

(11)F_fused=C_1×1

F g a t e

+C_1×1

F a l i g n l o c a l; F a l i g n g l o b a l

。

式中,C_1×1为1×1卷积层。将特征维度压缩至1 024,并增强非线性表达能力,最终输出该模块最终输出F_fused∈R^{16×16×1 024}。

2.4 分类决策机制

在获得融合特征F_fused后,本研究设计了三阶段分类决策机制,其核心目标是将高维空间特征转换为岩画类别概率分布。该机制由特征压缩、全连接映射和概率转换三个关键组件构成,逐步实现特征空间到决策空间的转化。

特征压缩层目的解决高维特征空间与分类决策的维度失配问题,保留判别性文化特征的同时降低计算复杂度。采用全局平均池化(global average pooling,GAP)替代传统全连接层,其优势在于对每个特征通道进行空间平均,避免最大池化的信息损失,并消除空间位置敏感性,提升模型泛化能力。其公式表达为

(12)f_gap=[

1256 ∑ i = 1 16 ∑ j = 1 16 F f u s e d i, j, 1

,…,

1256 ∑ i = 1 16 ∑ j = 1 16 F f u s e d i, j, 1024

]。

式中,f_gap∈R^{1 024}为压缩后的特征向量,每个元素对应一个特征通道的全局响应强度。

全连接映射目的是实现特征空间到类别空间的非线性映射,学习岩画文化类别的判别边界。通过将1 024维特征压缩至512维隐空间,将隐空间映射至10维类别空间,从而构建起双全连接层结构,其公式为

(13)h=δ

W 1 f g a p + b 1

(14)z=δ

W 2 h + b 2

。

式中:W₁、b₁是降维层参数;W₂、b₂是分类层参数;δ(x)是ReLU激活函数,增强非线性表达能力。

概率转换层将分类层输出的原始分数转换为概率分布,支持岩画类别的模糊决策。首先,采用Softmax函数实现归一化指数变换,公式为

(15)p

y = c | z

e z c ∑ k = 1 10 e z k

。

式中,z=[z₁,z₂,…,z₁₀]^T为全连接层输出向量。

2.5 激活函数与损失函数

本文采用了ReLU(rectified linear unit)作为主要的激活函数,其具有计算简单、训练速度快的优点,能够有效缓解梯度消失问题,提高模型的收敛速度。计算公式为

(16)ReLU(x)=max(0,x)。

在训练过程中,采用交叉熵损失作为优化目标。交叉熵损失函数能够有效衡量模型预测分布与真实分布之间的差异,指导模型的参数更新。此外,为了处理类别不平衡问题,我们在交叉熵损失函数中引入了类别权重,使得模型在训练过程中更加关注少数类别的样本,提高模型对不平衡数据集的处理能力,其公式为

(17)L=-

∑ i = 1 N

w_iy_ilnP_i。

式中:y_i为真实标签;P_i为模型预测的概率分布中第i个类别的概率;w_i为类别权重。

3 实验及结果分析

3.1 数据集构建

本研究数据来源于《贺兰山岩画》以及中国北方岩画文化遗产数据库中的岩画高清正射影像,覆盖贺兰山贺兰口、归德沟、回回沟等18个岩画分布区域。影像数据经多视角三维重建与正射校正处理,确保图像几何精度与色彩一致性,可清晰呈现岩画符号的细节特征。根据岩画题材与构图特点,实验选择了贺兰山地区最具代表性的3种岩画数据:一种是人面像岩画;第二种是动物岩画;第三种则是能够反映当时生产生活场景的狩猎岩画。对于其他题材岩画数据,本实验并未采用。最终筛选出1 200幅岩画图像构成了贺兰山岩画图像特征提取与分类数据集,值得注意的是,实验中所使用的贺兰山人面像岩画和动物岩画都是以单体的形式进行统计的,而狩猎岩画中的元素较多,需要用整幅岩画进行统计,数据集所选取的3种岩画具体数量如下。

人面像岩画480幅,以单体人面像为主,涵盖具象、抽象及复合型符号,部分图像存在风化、剥落现象;动物岩画480幅,包括羊、马、鹿等单体动物形象,局部因自然侵蚀导致轮廓模糊;狩猎岩画构图复杂且空间分布密集,因此仅有240幅,单位统计以整幅岩画为主,包含人物、动物、弓箭等多元素组合场景。

数据标注采用人工标注的方式,对岩画符号的类别如人面像、动物、狩猎场景、祭祀、生产、生活等文化属性,以及可能的年代信息,如青铜时代、新石器时代等信息进行精细化标注,并采用经度和纬度的形式记录地理坐标。岩画标注完成后已通过3名贺兰山岩画管理处科研人员审核验证,确保标签的准确性与一致性。为保障模型训练的泛化能力,数据集按类别分层随机划分为训练集∶验证集∶测试集=7∶2∶1,具体分布如表2所示。

表2 数据集划分

Tab.2 Dataset division 单位:幅

类别	训练集	验证集	测试集	总计
人面像岩画	336	96	48	480
动物岩画	336	96	48	480
狩猎岩画	168	48	24	240

3.2 图像数据预处理

首先,采用锐化效果增强,保留符号边缘细节,将图像统一缩放至256×256像素,避免形变干扰,并对狩猎岩画重点区域进行裁剪(如表3中的狩猎岩画数据所示),使之能够包含完整的人物、工具、动物以及动作图景,剪裁后的图像均通过专家复审,以确保关键信息完整。为进一步增强模型泛化能力,通过±30°随机旋转、水平翻转、±20%亮度调整及局部最大遮挡面积15%的遮挡模拟,将数据集扩充至原始样本量的2倍,扩充后训练集总量为1 680幅,其中人面像672幅、动物672幅、狩猎336幅,确保模型能够学习到更多的特征,从而达到扩充数据集的目的。针对部分图像剥落风化、模糊及低对比度问题,模拟局部剥落以提升对破损岩画的适应性。

表3 部分数据集数据

Tab.3 Partial dataset data

人面像岩画
动物岩画
狩猎岩画

注:网络版为彩图。

3.3 实验参数设置

在模型配置与训练方面,输入尺寸设置为256×256像素,与预处理后的图像尺寸一致。神经网络模型训练过程中对计算需求较大,配备NVIDIA RTX 4070Ti显卡、32 GB显存,Windows 11专业版操作系统、内存32 GB;中央处理器采用 Intel(R)Core(TM) i7-10700H。在统一硬件环境与训练策略下进行配置,并采用相同的数据增强策略,例如随机旋转±30°、水平翻转、亮度调整±20%;超参数设置保持一致,包括优化器中的AdamW,β₁=0.9,β₂=0.999、初始学习率设置为3×10^-4、批大小(batch size)为32、训练轮次为100次迭代(epochs)及余弦退火学习率调度,同时通过类别权重将人面像∶动物∶狩猎比例设为1∶1∶2,缓解数据不均衡问题。针对模型特性差异,ResNet50随机初始化以适配岩画局部纹理特征。实验使用迁移学习策略,其中ViT加载ImageNet-21k预训练权重,ResNet50加载ImageNeT1K_V2预训练权重,并仅微调编码器与分类头,避免小样本过拟合。

3.4 实验结果与分析

在岩画特征提取任务中,分类准确率是间接评估特征质量的核心指标。其内在逻辑在于,模型所提取特征的质量越高,其判别性越强,越能有效捕捉不同类别岩画之间的细微差异,从而直接体现为更高的分类准确率。验证本文所提模型分类效果的有效性和优越性,选择两种分类实验常用的卷积神经网络ResNet50与ViT进行对比实验,并在相同的实验环境下进行训练和测试。

3.4.1 评价指标

本文采用精确率(precision,记作P_r)、召回率(recall,记作R_c)和F₁值三个评价指标对两个模型进行评估,并使用混淆矩阵具体展示具体分类结果。精确率能够明确反映出在模型判定为该类别的所有样本中,真正属于该类别的比例。召回率衡量的是模型对某一类别岩画实际样本的覆盖能力。F₁值是精确率和召回率的调和平均数,能够综合衡量模型整体性能,有助于评估和选择最适合岩画特征提取任务的算法,具体计算公式如下:

(18)P_r=

T P T P + F P

(19)R_c=

T P T P + F N

(20)F₁=

2 × P r × R c P r + R c

。

式中:T_P表示模型正确预测为正类的样本数;F_P表示模型错误预测为正类的样本数;F_N表示模型错误预测为负类的样本数。

3.4.2 实验结果分析

通过三种深度学习模型在数据集上的测试后得到表4~6所示结果,实验中对各模型采用计算各种类的加权平均值的方式得到精确率、召回率和F₁值,其结果如表7所示,加权平均值的公式为

(21)W_A=

∑ i = 1 N w i × M i

。

式中:w_i表示第i种样本数量占比权重;M_i示第i项的度量值,比如精确率、召回率等。

表4 ResNet50模型分类结果评估

Tab.4 Evaluation of classification results of the resNet50 model 单位:%

岩画类型	精确率	召回率	F₁值
人面像岩画	84.00	87.50	85.71
动物岩画	83.67	85.42	84.60
狩猎岩画	71.43	62.50	66.66

表5 ViT模型分类结果评估

Tab.5 Evaluation of classification results of the ViT model 单位:%

岩画类型	精确率	召回率	F₁值
人面像岩画	82.61	79.17	80.83
动物岩画	80.85	79.17	80.00
狩猎岩画	74.07	83.33	78.43

表6 本文模型分类结果评估

Tab.6 Evaluation of classification results of this paper’s model 单位:%

岩画类型	精确率	召回率	F₁值
人面像岩画	86.21	89.58	87.86
动物岩画	85.71	87.50	86.59
狩猎岩画	79.49	85.42	82.35

表7 本文模型与其他两种模型性能对比

Tab.7 Performance comparison of this paper’s model with two other models 单位:%

模型	精确率	召回率	F₁值
ResNet50	81.35	81.67	81.46
ViT	80.20	80.00	80.02
DBAFN	83.80	87.50	85.62

注:加粗表示最优。

实验结果表明,本文模型对贺兰山岩画分类的精确率为83.8%、召回率为87.5%、F₁值为85.62%,均优于ResNet50和ViT模型。尤其F₁值较ResNet50(81.46%)和ViT(80.02%)分别提升4.16%和5.60%。这表明双分支结构有效整合了ResNet50的局部细节捕捉能力(例如凿刻纹理、边缘等),以及ViT的全局语义建模能力(如符号间文化关联等),解决了单一模型的特征局限性。此外,召回率指标显著提升至87.50%,高于ResNet50的5.83%和ViT的7.50%,证明模型对岩画文化内容元素的覆盖更全面。

但总体看来,本文模型的分类准确率仍未达到90%,这表明模型在分类过程中仍存在一定不确定性,尚无法完全替代人工分类,仍需人工鉴别的辅助。其原因可能在于岩画图像本身的复杂性和多样性,其包含的元素多样且相互交织,可能使得模型难以准确捕捉到具有区分性的特征。其次,训练数据的局限性可能导致模型泛化能力不足,无法适应岩画图像的丰富变化。

由ResNet50的混淆矩阵(图3a)可知,其对人面像岩画和动物岩画的分类效果较好,对角线上的正确分类数量较高。然而,对于狩猎场景岩画,正确分类的数量仅为15幅,而有5幅被错误分类为人面像岩画,4幅被错误分类为动物岩画。这表明超过三分之一的狩猎场景岩画被误分类,可能的原因在于狩猎场景岩画通常包含人面像和动物元素,这些元素与单独的人面像岩画和动物岩画存在特征重叠,导致模型难以区分。相比之下,ViT模型的混淆矩阵(图3b)显示其对狩猎场景岩画的分类效果更佳,正确分类数量为20幅,误分类数量较少。这可能与ViT的自注意力机制有关,该机制能够捕捉图像中不同元素之间的长距离依赖关系,从而更好地理解狩猎场景岩画中人与动物、工具的组合特征。两类模型的误分类模式揭示了其感知偏好,ResNet50依赖局部相似性,ViT受全局语义关联影响,这一差异为模型优化提供了方向。

显示原图|下载原图ZIP|生成PPT

图3 基础模型测试结果混淆矩阵

Fig.3 Confusion matrix of basic model testing results

相比ResNet50和ViT模型,本文所提模型(图4)优化了上述问题,狩猎场景正确分类达21/24,误判降至3幅,人面像与动物岩画分类精度同步提升,其门控注意力机制通过动态加权局部细节与全局语义,提升了模型在复杂场景中元素交互关系的精准捕捉的能力。

显示原图|下载原图ZIP|生成PPT

图4 本文模型测试结果混淆矩阵

Fig.4 Confusion matrix of this paper’s model testing results

表8提供了岩画图像从原始状态到特征提取的完整处理流程示例。首先,针对岩画原图像的特征可能不够明显等问题,对其进行预处理,通过锐化增强了岩画痕迹的对比度,使其在背景中更加突出,为后续的特征提取奠定基础。右侧的特征提取部分则进一步聚焦岩画的核心部分,通过热力图形式直观地展示模型所关注的关键区域,其中红色表示高激活值,对应模型关注的核心特征区域,在人面像岩画中,红色区域集中在五官轮廓及头部外缘,对于动物岩画,高激活区域覆盖动物躯干、四肢及典型特征,表明模型通过卷积核提取了符号的几何形状与边缘信息,依赖局部纹理差异区分类别。在狩猎场景岩画中,红色区域连接人物、动物及武器,形成连贯的语义网络。这一流程能够突出岩画的关键特征,减少背景干扰,通过模型的注意力机制或特征映射提取特征,精准定位到图像中最重要的部分,有助于更好地理解模型是如何分类和识别岩画图像的。

表8 图像特征提取示例

Tab.8 Examples of image feature extraction

注:网络版为彩图。

4 结语

本文将深度学习算法应用于贺兰山岩画的保护研究之中,在以往人工标注和录入数据信息的基础上,结合计算机视觉技术,对岩画图像进行处理,提升图像分析的精度和效率,达到提取岩画图像特征以及图像分类的目的。实验针对岩画数量多、复杂元素交叉干扰、常用模型分类准确率不高等问题,提出双分支注意力融合网络(DBAFN),通过门控机制动态融合ResNet50的局部特征提取能力与ViT的全局语义建模优势。实验表明,该模型在1 200幅岩画数据集上将加权平均F₁值提升至85.62%,其中狩猎场景分类F₁值达82.35%,较基准模型提升4.29%。热力图与混淆矩阵验证了模型对元素交互关系的精准捕捉能力,有效解决了岩画误分类问题。

未来研究可进一步探索以下方向:1)引入细粒度关系推理模块,结合图神经网络(GNN)显式建模岩画符号间的文化语义关联;2)构建跨时代岩画演化知识库,融入年代风格约束以提升分类可解释性;3)结合岩画知识图谱构建,直观地展示人面像、动物、狩猎岩画与文化内涵、地理分布和历史年代之间的复杂关系,形成层次化网络。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	束锡红, 夏亮亮. 岩画文化遗产保护与数字人文[M]. 上海: 上海古籍出版社, 2022.

[2]

束锡红, 聂君, 刘景云. 岩画图形文字符号数字模糊识别研究:以宁夏大麦地岩画为例[J]. 西北大学学报(哲学社会科学版), 2022, 52(5):39-49.

SHU

X H

, NIE

, LIU

J Y

. A study on digital fuzzy recognition of graphic character symbols in rock paintings:taking the damaidi rock paintings in Ningxia as an example[J]. Journal of Northwest University (Philosophy and Social Sciences Edition), 2022, 52(5):39-49.

[3]	张亚莎, 威丽斯, 张晓霞. 机遇与挑战:数字人文视阈下的中国岩画[J]. 贵州民族研究, 2022, 43(1):149-153. ZHANG Y S, WEI L S, ZHANG X X. Opportunities and challenges:Chinese rock art from the perspective of digital humanism[J]. Guizhou Ethnic Studies, 2022, 43(1):149-153.

[4]	魏鹏, 刘成禹, 王金华, 等. 基于热红外成像的岩画空鼓边界检测方法研究[J]. 激光与光电子学进展, 2025, 62(16):130-139. WEI P, LIU C Y, WANG J H, et al. Hollow boundary detection method for rock painting based on thermal infrared imaging[J]. Laser & Optoelectronics Progress, 2025, 62(16):130-139.

[5]	李树威, 刘国政, 房淑宇, 等. 基于DR-IFMM的岩画图像修复方法研究[J]. 电子测量技术, 2025, 48(7):16-27. LI S W, LIU G Z, FANG S Y, et al. Inpainting method for rock art images based on DR-IFMM[J]. Electronic Measurement Technology, 2025, 48(7):16-27.

[6]	贾大勇, 李春树, 吴严. 基于Faster R-CNN的贺兰山岩画目标检测研究[J]. 宁夏工程技术, 2022, 21(4):372-376. JIA D Y, LI C S, WU Y. Object detection of the rock paintings in the Helan Mountains based on Faster R-CNN[J]. Ningxia Engineering Technology, 2022, 21(4):372-376.

[7]	王阳, 束锡红. 基于深度学习的岩画鉴别与分类研究—以贺兰山岩画为例[J]. 数字人文, 2025(2):113-133. WANG Y, SHU X H. Research on rock painting identification and classification based on deep learning: a case study of Helan Mountain rock paintings[J]. Journal of Digital Humanities, 2025(2):113-133.

[8]	TSIGKAS G, SFIKAS G, PASIALIS A, et al. Markerless detection of ancient rock carvings in the wild:rock art in Vathy,Astypalaia[J]. Pattern Recognition Letters, 2020, 135:337-345. DOI

[9]	KOWLESSAR J, KEAL J, WESLEY D, et al. Reconstructing rock art chronology with transfer learning:a case study from Arnhem Land,Australia[J]. Australian Archaeology, 2021, 87(2):115-126. DOI

[10]	JALANDONI A, ZHANG Y S, ZAIDI N A. On the use of machine learning methods in rock art research with application to automatic painted rock art identification[J]. Journal of Archaeological Science, 2022, 144:105629. DOI

[11]	HORN C, IVARSSON O, LINDHÉ C, et al. Artificial intelligence,3D documentation,and rock art:approaching and reflecting on the automation of identification and classification of rock art images[J]. Journal of Archaeological Method and Theory, 2022, 29(1):188-213. DOI

[12]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV. New York: IEEE, 2016:770-778.

[13]	DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words:Transformers for image recognition at scale[EB/OL].[2025-07-08]. https://arxiv.org/abs/2010.11929.

[14]	葛琪, 吴丽丽, 康立军. 基于改进ResNet50的中药材分类识别[J]. 软件工程, 2025, 28(4):16-21. GE Q, WU L L, KANG L J. Classification and recognition of Chinese medicinal materials based on improved ResNet50[J]. Software Engineering, 2025, 28(4):16-21.

[15]	黄浩, 朱俊江. 基于GoogLeNet-ViT模型的心律不齐多标签诊断算法[J]. 计算机应用与软件, 2025, 42(5):247-254. HUANG H, ZHU J J. Multi-label diagnosis algorithm of arrhythmia via GoogLeNet-ViT model[J]. Computer Applications and Software, 2025, 42(5):247-254.

[16]	刘艳如, 吴晓红, 何小海, 等. 基于改进ResNet50的岩心图像分类研究[J]. 智能计算机与应用, 2025, 15(2):10-16. LIU Y R, WU X H, HE X H, et al. Research on core image classification based on improved ResNet50[J]. Intelligent Computer and Applications, 2025, 15(2):10-16.

[17]	李远禄, 王键翔, 范小婷, 等. 基于ViT-D-UNet的双分支遥感云影检测网络[J]. 计算机系统应用, 2024, 33(8):68-77. LI Y L, WANG J X, FAN X T, et al. Bi-branch remote sensing cloud and shadow detection network based on ViT-D-UNet[J]. Computer Systems and Applications, 2024, 33(8):68-77.

[18]	冯峰, 周鑫, 陈诗瑶, 等. 一种基于改进神经网络算法ResNet50的玉米病虫害识别模型[J]. 江苏农业科学, 2024, 52(16):239-244. FENG F, ZHOU X, CHEN S Y, et al. A maize pest and disease identification model based on improved neural network algorithm ResNet50[J]. Jiangsu Agricultural Sciences, 2024, 52(16):239-244.

[19]	涂雪滢, 张佳鹏, 钱程, 等. 融合ViT和通道注意力的水稻病害识别技术研究[J]. 农业与技术, 2025, 45(7):69-74. TU X Y, ZHANG J P, QIAN C, et al. Research on rice disease identification technology combining ViT and channel attention[J]. Agriculture and Technology, 2025, 45(7):69-74.

[20]	杨硕, 陈昕, 崔文锋, 等. 基于路测图像与改进ResNet50网络的自动驾驶场景天气识别算法[J]. 汽车与新动力, 2024, 7(2):15-22. YANG S, CHEN X, CUI W F, et al. Weather recognition algorithm for autopilot scenes based on road test images and improved ResNet50 network[J]. Automobile and New Powertrain, 2024, 7(2):15-22.

[21]	ANDO A, GIDARIS S, BURSUC A, et al. RangeViT:towards vision transformers for 3D semantic segmentation in autonomous driving[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver,BC. New York: IEEE, 2023:5240-5250.

[22]	JEONG M, YANG M, JEONG J. Hybrid-DC:a hybrid framework using ResNet-50 and vision transformer for steel surface defect classification in the rolling process[J]. Electronics, 2024, 13(22):4467. DOI

[23]	SOLAK A. Ensemble-based hybrid deep learning for monkeypox detection:merging instance-normalized transformers with CNNs for enhanced diagnostic precision[J]. Signal,Image and Video Processing, 2025, 19(9):699. DOI

[24]	王汉生, 姚建斌. 基于ResNet和ViT双流网络的小麦病虫害识别[J]. 农业技术与装备, 2024(2):18-21. WANG H S, YAO J B. Identification of wheat pests and diseases based on ResNet and ViT dual flow network[J]. Agricultural Technology & Equipment, 2024(2):18-21.

[25]	邹旺, 张吴波. 融合注意力门控神经网络和Stacking算法的文本分类方法[J]. 计算机与数字工程, 2024, 52(12):3568-3574,3600. ZOU W, ZHANG W B. Text classification method combining attention gated geural network and Stacking algorithm[J]. Computer & Digital Engineering, 2024, 52(12):3568-3574,3600.

[26]	赵东越, 石磊, 丁锰. 基于双分支注意力机制的指纹纹型分类[J]. 智能系统学报, 2025, 20(4):936-945. ZHAO D Y, SHI L, DING M. Fingerprint pattern classification based on dual-branch attention mechanism[J]. CAAI Transactions on Intelligent Systems, 2025, 20(4):936-945.

[27]	付艳贞, 樊建聪. 可变形分支注意力融合网络的胰腺分割方法[J]. 小型微型计算机系统, 2024, 45(11):2717-2724. FU Y Z, FAN J C. Pancreas segmentation method with deformable branch attention fusion network[J]. Journal of Chinese Computer Systems, 2024, 45(11):2717-2724.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 相关工作

2 实验方法

表1 两种模型对比

图1 双分支注意力融合网络模型结构图

2.1 双分支结构

2.2 特征对齐模块

2.3 门控注意力融合模块

图2 门控注意力融合模块结构示意图

2.4 分类决策机制

2.5 激活函数与损失函数

3 实验及结果分析

3.1 数据集构建

表2 数据集划分

3.2 图像数据预处理

表3 部分数据集数据

3.3 实验参数设置

3.4 实验结果与分析

3.4.1 评价指标

3.4.2 实验结果分析

表4 ResNet50模型分类结果评估

表5 ViT模型分类结果评估

表6 本文模型分类结果评估

表7 本文模型与其他两种模型性能对比

图3 基础模型测试结果混淆矩阵

图4 本文模型测试结果混淆矩阵

表8 图像特征提取示例

4 结语

参考文献