Welcome to visit Journal of Shaanxi Normal University(Natural Science Edition)!

Visual object tracking with spatial-temporal feature enhancement and perception

  • GUO Husheng 1, 2 ,
  • LIU Zhengqi 1 ,
  • LIU Yanjie 1 ,
  • WANG Wenjian , 2, *
Expand
  • 1 School of Computer and Information Technology, Shanxi University, Taiyuan 030006,Shanxi,China
  • 2 Key Laboratory of Computational Intelligence and Chinese Information Processing (Shanxi University), Ministry of Education, Taiyuan 030006,Shanxi,China

Received date: 2024-07-23

  Online published: 2025-02-27

Abstract

Most Transformer-based object tracking models have limited extraction of target's local spatial feature information and insufficient utilization of temporal features, significantly affecting the performance of object tracking models in handling complex scenarios such as target occlusion, deformation, or scale changes. Therefore, a visual object tracking method with spatial-temporal feature enhancement and perception (STFEP) are proposed in this paper. On one hand, this method uses Transformer for the extraction and fusion of search region and temporal context features to obtain global feature information. By designing a local convolutional neural network, it extracts the target's local feature information and associates it with the target's global feature information, further enhancing the target's feature representation. On the other hand, a spatial-temporal feature perception mechanism is proposed to analyze the reliability and necessity of feature information at different moments, constructing dynamic templates to perceive richer spatial-temporal information, enabling the model to adapt to complex changes in targets and scenes. Experimental results on multiple datasets such as TrackingNet, GOT-10k, LaSOT and UAV123 show that the proposed method can track the target accurately and robustly, and the optimal results are obtained on GOT-10k dataset. AO, SR0.5 and SR0.75 were 73.7%, 83.8% and 70.6%, respectively.

Cite this article

GUO Husheng , LIU Zhengqi , LIU Yanjie , WANG Wenjian . Visual object tracking with spatial-temporal feature enhancement and perception[J]. Journal of Shaanxi Normal University(Natural Science Edition), 2025 , 53(1) : 60 -70 . DOI: 10.15983/j.cnki.jsnu.2025006

目标跟踪作为计算机视觉领域的一项关键任务,因其在多个领域的广泛应用,例如人机交互、动作分析、无人系统等而备受瞩目。其核心目标在于根据初始帧中目标对象的位置,预测后续帧中对象的位置信息。然而,目标跟踪任务常常面临着复杂场景下的诸多挑战,如目标遮挡、形变或尺度变化等,若模型未能妥善处理这些挑战,其性能可能会随着时间推移受到严重影响,甚至导致目标丢失。因此,实现在复杂场景下精确的目标跟踪仍然是一项具有巨大挑战的任务。
传统的视觉目标跟踪方法通常依赖于卷积神经网络,基于Siamese网络的跟踪方法已经取得了实质性的改进[1-4],它将跟踪问题转换为模板与搜索图像之间的匹配问题,其结构由两个共享权重的卷积网络组成,分别学习目标和搜索图像的特征表示。但是,由于CNN只能进行局部信息提取和短期依赖关系的建模,限制了模型性能的进一步提升。随着Transformer的提出,其能够有效聚合全局信息的特点吸引了越来越多的研究者的关注,开始被应用于目标跟踪领域,取得了显著的效果[5-6]。Transformer模型中的自注意力机制允许每个位置与其他位置进行交互,从而实现全局范围的信息传递,然而这种全局性的注意力机制可能会忽略局部信息的细节。由于全局信息可能会淹没局部信息,使得模型难以集中注意力在目标的局部细节上,最终导致目标信息的丢失,从而影响模型跟踪的准确性。
在目标跟踪过程中,目标的位置和运动状态随着时间的推移而变化,同时目标的外观特征也可能在不同的时间段内发生变化,因此时空信息在目标跟踪任务中至关重要。传统Siamese网络跟踪模型通常只使用初始帧进行跟踪[1,7],然而,这些跟踪方法难以适应跟踪过程中目标遮挡、形变等挑战。最近的跟踪方法,虽然在模型上利用到了时间信息,不过对于时间信息的挖掘不够充分,造成模型会捕捉到不可靠以及冗余的时间信息,对模型的性能造成一定的影响[8-9]
为解决上述问题,本文提出一种时空特征强化与感知的视觉目标跟踪方法。首先,使用Transformer实现时空特征的提取与融合,得到全面的特征信息。随后,利用局部卷积神经网络对搜索图像进行局部特征提取,获取更细致的局部信息并与全局信息相关联以强化目标特征表示。其次,本文引入了时空特征感知机制,通过对不同时刻的时空信息进行可靠性和必要性分析来构建动态模板,并且随时间推移自适应进行更新,以获取丰富的时空特征来满足模型在不同复杂场景下的跟踪需求。本文主要贡献如下。
1) 通过将全局与局部信息相关联,强化目标的时空特征,提高了模型跟踪的准确性和鲁棒性。
2) 提出时空特征感知机制,对不同时刻的时空信息进行分析,获取目标的关键时刻特征,满足不同跟踪场景下的需求。
3) 本文构建时空建模方法进一步探索了Transformer的潜力,有效提高了模型应对目标外观以及场景变换等挑战的能力。

1 相关工作

随着计算机视觉和人工智能的发展,视觉目标跟踪作为一项关键技术在各个应用中扮演着重要的角色。Transformer作为强大的注意力模型,在计算机视觉领域取得了成功并引起了广泛关注。同时,为了更好地应对复杂场景下的挑战,时空信息建模也成为视觉目标跟踪的研究热点。

1.1 目标跟踪中的Transformer

近年来,随着Transformer结构在视觉领域的引入,跟踪器的性能[10]得到了显著的提升。这类跟踪器[5,11-13]利用Transformer在全局上下文的建模能力,有效地对模板和搜索图像进行特征提取和融合,并在各种具有挑战性的基准数据集[14-16]上实现了最先进的结果。例如HiFT[17]提出了高效分层特征Transformer,实现了空间和语义线索的交互,有效地学习了不同层次特征之间的信息交互。TrackFormer[18]通过引入目标查询来以自回归的方式跟踪目标,实现了视频帧之间更加紧密的数据关联,完成了视频序列间的跟踪轨迹预测。此外,轻量级网络框架如OsTrack[19]提出了一个高效紧凑的单流单阶段框架,将图像的特征提取以及关系建模高度并行化,保证模型性能的同时减少了计算负担。MixFormer[20]则通过简化骨干网络并设计了一种新的注意力机制称为混合注意力,该机制能够更好地实现模板和搜索区域之间的信息交互,并提出了非对称混合注意力减少模型计算负担。与上述工作相比,本文利用卷积神经网络擅长捕捉图像中的细节和局部纹理的特点,通过添加该网络结构来弥补Transformer提取局部细节上的不足,提出的方法不仅具有紧凑的网络结构而且更全面地考虑了目标的局部信息,使模型能够得到更全面详细的目标特征。

1.2 时空信息建模的探索

空间和时间信息的获取与融合是目标跟踪领域的核心问题之一,充分利用时间信息可以学习目标的外观变化,从而增强模型在复杂场景下的准确性和鲁棒性。目前,大多数跟踪器通过对模板进行操作来获取时间信息。例如,SiamRTU[21]提出了基于深度强化学习的模板更新方法,通过训练Actor-Critic网络进行维护,来适应目标的外观变化。近期,基于Transformer的跟踪器在时间信息的探索方面同样取得了进步。例如,跟踪器[7]通过构建多张图像组成的模板序列来获取时间线索,并按固定时间间隔对模板序列进行更新。添加动态模板[8,20]是比较流行的获取时间信息的方法之一,通过设计分数头来判断图像的可靠性,以此为依据对动态模板进行更替,并设计了全新的Transformer结构来捕获全局时空特征的依赖关系。虽然上述方法取得了很好的跟踪效果,但是在时间信息的利用方面没有很好地考虑信息的可靠性或者必要性,因此本文着重考虑了上述两个方面来获取时间信息。

2 时空特征强化与感知

本节介绍了时空特征强化与感知的视觉目标跟踪方法,首先使用编码器对时空特征进行提取与融合来获得全局信息,与此同时使用局部卷积神经网络对搜索图像局部特征进行提取,并与全局信息相关联馈入到跟踪头网络,最后跟踪头网络产生最终的目标定位。模型结合跟踪头网络的定位信息对时间线索感知分析以获取到可靠必要的时空信息,使模型重点关注目标重要动态变化,从而增强模型跟踪性能。模型的总体结构如图1所示。
图1 STFEP方法结构图

注:网络版为彩图。

Fig.1 STFEP method structure diagram

2.1 全局-局部信息关联的时空特征强化

全局特征信息提取:ViT[22]2020年首次在被提出,它利用了Transformer架构来处理计算机视觉任务。传统上,卷积神经网络(CNN)在计算机视觉领域非常成功,但ViT通过将图像分割为一系列补丁(patches)并将其作为输入序列供Transformer模型处理,取得了很好的效果。本文在全局特征信息提取模块中使用ViT来进行编码学习。首先,将所有的静态模板S、动态模板D和搜索区域X进行大小调整,将每个图像裁剪为不重叠的16×16的块(patch),然后将其平展为1维后添加位置嵌入,将SDX编码为静态令牌Zs={ Z s 1; Z s 2;…; Z s m},动态令牌Zd={ Z d 1; Z d 2;…; Z d m}和搜索令牌Zx={Zx}。其次通过线性层将所有的令牌连接为{Zs;Zd;Zx},连贯地输入到ViT编码器中。编码器包含12个上下文感知自注意模块,上下文感知自注意模块可以对所有静态、动态模板和搜索区域中的动态时间和可变空间信息进行编码,从而得到上下文全局特征信息A:
$\begin{array}{l}\boldsymbol{A}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{Softmax}\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}}}{\sqrt{d_{k}}}\right) \boldsymbol{V}= \\\quad \operatorname{Softmax}\left(\frac{\left[\boldsymbol{Q}_{s} ; \boldsymbol{Q}_{d} ; \boldsymbol{Q}_{x}\right]\left[\boldsymbol{K}_{s} ; \boldsymbol{K}_{d} ; \boldsymbol{K}_{x}\right]^{\mathrm{T}}}{\sqrt{d_{k}}}\right) \cdot \\\quad\left[\boldsymbol{V}_{s} ; \boldsymbol{V}_{d} ; \boldsymbol{V}_{x}\right]= \\\quad \operatorname{Softmax}\left(\frac{1}{\sqrt{d_{k}}}\left[\begin{array}{lll}\boldsymbol{Q}_{2} \boldsymbol{K}_{s}^{\mathrm{T}} & \boldsymbol{Q}_{s} \boldsymbol{K}_{d}^{\mathrm{T}} & \boldsymbol{Q}_{s} \boldsymbol{K}_{x}^{\mathrm{T}} \\\boldsymbol{Q}_{d} \boldsymbol{K}_{s}^{t} & \boldsymbol{Q}_{d} \boldsymbol{K}_{d}^{\mathrm{T}} & \boldsymbol{Q}_{d} \boldsymbol{K}_{x}^{\mathrm{T}} \\\boldsymbol{Q}_{d} \boldsymbol{K}_{s}^{\mathrm{T}} & \boldsymbol{Q}_{d} \boldsymbol{K}_{d}^{\mathrm{T}} & \boldsymbol{Q}_{d} \boldsymbol{K}_{x}^{\mathrm{T}}\end{array}\right]\right) \cdot\left[\begin{array}{c}\boldsymbol{V}_{s} \\\boldsymbol{V}_{d} \\\boldsymbol{V}_{x}\end{array}\right].\end{array}$
由公式(1)可知,对角线特征,如Qx K T x,专注于搜索区域的区域内表示,而Qs K T sQd K T d分别在静态模板和动态模板中融合空间上下文。非对角线特征,如Qs K T xQd K T x,解释了模板和搜索区域之间的交互。Qx K T sQx K T d将时间上下文聚合到搜索区域中,而Qs K T dQd K T s表示模板间的交互。
局部特征信息提取。通过堆叠12个上下文感知自注意模块,提取到丰富的上下文全局特征信息。全局信息更多地表达不同输入之间的相互关系,为了进一步增强Qx K T x所包含的搜索区域信息,本文设计了局部卷积神经网络,网络结构如表1所示。该网络包含1个Reshape层和4个卷积层。Reshape层将搜索图像的通道数由3调整至64。搜索图像的尺寸大小由384×384经过4个卷积层,最后变为24×24,与上下文感知自注意模块得到的特征A维度相同,便于融合。通过构建有效的局部卷积神经网络,采用连续下采样方式对搜索区域进行特征提取,从而得到搜索区域所包含的局部特征信息。
表1 卷积神经网络结构

Tab.1 Convolutional neural network structure

网络层 输入尺寸 输出尺寸 卷积核大小 卷积核个数 激活函数
输入 384×384 3
Reshape 384×384 384×384 3×3 64 ReLU
down1 384×384 192×192 3×3 128 ReLU
down2 192×192 96×96 3×3 256 ReLU
down3 96×96 48×48 3×3 512 ReLU
down4 48×48 24×24 3×3 768 ReLU
输出 24×24
上下文感知自注意模块利用Transformer对图像全局特征进行建模,通过自注意机制捕捉图像中各部分之间的关系和依赖,提供了全局上下文信息。局部特征信息提取模块利用CNN对图像的局部特征进行精细化提取,擅长捕捉图像的细节和局部纹理信息,帮助模型精确跟踪目标的细微变化和局部特征。通过结合全局和局部特征,模型能够同时利用图像的整体结构和细节信息,从而形成更丰富、更全面的目标特征表达,使模型能够在复杂背景和遮挡等复杂场景下保持对目标的正确识别。
跟踪头网络。融合全局和局部信息对目标特征强化后,输入到跟踪头网络中。在本文方法中,跟踪头网络由分数头、偏移头和尺寸头组成。经过编码学习后,搜索区域X的输出被重塑为二维特征,这里的重塑是将1维的特征转换为空间的2维特征。具体来说,首先,分数头预测目标的大致位置和分数:
$\boldsymbol{G}_{x y}=\exp \left[-\frac{\left(x-p_{x}\right)^{2}+\left(y-p_{y}\right)^{2}}{2 \sigma_{p}^{2}}\right].$
式中:(px,py)为中心点坐标; σ p 2为定义目标大小的标准差。在高斯核的监督下,分数头的损失为
$L_{s}=\left\{\begin{array}{l}-\sum\left(1-\hat{\boldsymbol{G}}_{x y}\right)^{\alpha} \log \left(\hat{\boldsymbol{G}}_{x y}\right), \text { 若 } \boldsymbol{G}_{x y}=1, \\-\sum\left(1-\boldsymbol{G}_{x y}\right)^{\beta}\left(\hat{\boldsymbol{G}}_{x y}\right)^{\alpha} \log \left(1-\hat{\boldsymbol{G}}_{x y}\right), \text { 否则。 }\end{array}\right.$
式中: G ˙ x y∈[0,1 ] W x × H x为分数图;(Wx,Hx)为搜索区域的特征大小。设置α=2和β=4。在得到分数头( x ˙, y ˙)=argmaxx,y( G ˙ x y)的最大响应后,最终的预测框可计算为
$\hat{b}=\left(\hat{x}+\hat{\delta}_{x}, \hat{y}+\hat{\delta}_{y}, \hat{w}, \hat{h}\right)$
式中:( δ ˙ x, δ ˙ y)为偏移头的偏移量;( w ˙, h ˙)分别为距位置( x ˙, y ˙)的边界框尺寸。由式4得到的边界框用IoU损失和L1损失进行训练。最后,总损失记为
$L=L_{s}+\lambda_{\mathrm{IoU}} L_{\mathrm{IoU}}\left(\hat{b}, b_{\mathrm{gt}}\right)+\lambda_{l_{1}} L_{1}\left(\hat{b}, b_{\mathrm{gt}}\right)$
式中:λIoU=2;λl1=5为损失权重;bgt为真实目标框。

2.2 时空特征分析与感知

在跟踪过程中,首先给定视频V=[I1,I2,…,In]和初始目标框。由于初始模板具有高度的可靠信息,因此设置不同尺度K={K1,K2,…,Km}对初始模板进行裁剪生成静态模板S={S1,S2,…,Sm}以更充分地利用模板的空间信息,其中St以尺度Kt进行裁剪。提出了时空特征感知机制来有效利用时间信息,本文通过可靠性分析和必要性分析构建了动态模板D={D1,D2,…,Dm}在跟踪过程中编码更多的对象外观变化, 在跟踪过程中自适应对模型进行更新。时空特征感知机制结构如图2所示。
图2 时间感知机制结构图

Fig.2 Temporal perception mechanism structure diagram

随着目标跟踪时间的推移,目标可能被遮挡,发生形变甚至移出视野外,因此判断视频帧是否可靠是非常有必要的。在本文中根据置信度分数来判断当前帧的可靠性,通过跟踪头网络中的分数头得到预测目标位置的分数图,本文将分数图的最大响应值作为置信度来判断图像的可靠性,当置信度大于阈值δ则认为当前帧是可靠的。置信度分数计算如下:
$\text { score }=\max \left(\exp \left(-\frac{\left(x-p_{x}\right)^{2}+\left(y-p_{y}\right)^{2}}{2 \sigma_{p}^{2}}\right)\right).$
置信度阈值δ的设置对模型的性能有显著影响,当阈值较低(如0.7或0.8)时,容易将一些不可靠的帧误认为可靠,导致跟踪结果不稳定;当阈值较高(0.95或0.99)时,则可能忽略一些实际可靠的帧,导致目标信息丢失。因此,综合考虑,选择0.9作为置信度阈值能够在准确性和鲁棒性之间取得较好的平衡。
考虑到可靠帧如果直接用于跟踪,可能会因为存在目标特征相似的帧而增加模型计算量,降低跟踪效率。为解决这一问题,本文聚焦目标的重要动态变化进行图像必要性分析。具体而言,通过相似性计算衡量目标在空间上的变化。首先,根据置信度的评估生成模板池,其中包含一组图像F={f1,f2,…,fn},由模板池生成一个n×n的相似矩阵,n表示模板池中的图像数量。模板池中图像数量过多时,虽然增加了模板的多样性,但也可能造成计算开销和内存使用,当池中图像数量太少可能导致可供选择的模板数量不足,无法充分捕捉目标的外观变化。因此,设置模板池大小为30,保证模型性能的同时,保持较低的计算复杂度。
根据动态模板的数目N接收相似矩阵作为输入,对整个模板池进行分割,形成不同的视频帧集合。在划分过程中随机选取N个帧作为集合特征中心Cj(j=1,2,…,N)。随后,通过计算模板池中其他帧与集合中心的相似距离,将模板池中的所有帧划分为不同的集合Aj(j=1,2,…,N),对于每个集合Aj,重复中心计算选取和分割步骤,直至集合中心不再变动:
c j =   i = 1 n f i l { A i = j } i = 1 n l { A i = j }
对于观测帧fi的归属问题,本文引入了隐变量l{Ai=j},用于确定第i个观测帧是否属于集合Aj,当第i个观测帧属于Aj时,该变量值为1,否则为0。由此可得N个集合,每个视频帧集合表示相似的目标运动信息。当有新的可靠帧加入时,首先丢掉最旧的帧,然后对新模板池重新进行分割。分割完成后,计算每个集合的特征中心值,并选择每个集合中距离特征中心值最接近的帧作为动态模版。动态模板数对于模型稳定的跟踪至关重要,当动态模板数目较少时,可能无法充分利用模板池中的多样性信息,导致跟踪精度下降,而当动态模板数目较多时,则可能导致计算复杂度增加,影响实时性。经过权衡,选择3个动态模板能够较好地利用模板池信息,并保持较高的跟踪性能。这种动态的模板更新机制允许根据最新的可靠帧来捕捉目标的变化,并在跟踪过程中灵活地调整动态模板,以提高跟踪的准确性和鲁棒性。

3 实验

3.1 实验细节

为验证所提出的STFEP方法,本文在不同的数据集上进行实验。实验所使用的环境如下:实验硬件环境为NVIDIA-A100;软件环境平台使用Python 3.7 和Pytorch 1.8;CUDA版本为11.2。在实验中,采用MAE(masked autoencoder)预训练的ViT作为骨干网络。实验设置批量大小和学习率分别为8和1×10-4,并使用Adam(adaptive moment estimation)优化器进行300次迭代对模型进行训练,训练和测试集包括TrackingNet、GOT-10k、COCO17、LaSOT,所有模板的大小设置为192×192,搜索区域大小设置为384×384。在跟踪推理过程中,置信度阈值δ设置为0.9,模板池大小n为30,动态模板数目N为3。

3.2 消融实验

为了验证模型中局部特征信息提取模块和时空特征分析与感知模块对提升目标跟踪性能的有效性,本文在GOT-10k数据集上进行消融实验。实验结果如表 2所示。从表中可以看出,分别使用局部空间信息提取模块和动态模板更新机制都对跟踪结果有了提升,所提出的STFEP跟踪方法结合两个模块,进一步提高了跟踪的精度,验证了所提模块的有效性。
表2 不同模块对模型跟踪性能的影响

Tab.2 The influence of different modules on model tracking performance

局部特征信息提取 时空特征分析与感知 GOT-10k
AO SR0.5 SR0.75
× × 73 83 69
× 73.3 83.4 70
× 73.4 83.6 70.4
73.7 83.8 70.6

注:AO指平均重叠,SR0.5指重叠超过0.5的成功率,SR0.75指重叠超过0.75的成功率。

3.3 与相关方法的性能比较

3.3.1 TrackingNet数据集实验结果与分析

TrackingNet是一个广泛应用于视觉目标跟踪领域的大规模、多样化的基准数据集,其中囊括了户外场景下的各种情形,包括了各种帧率、分辨率、上下文场景以及目标类别。本文在TrackingNet的测试集上将本文所提方法与基于孪生网络的SiamFC[1]、SiamRPN+ +[2] 、Ocean[23]、SiamGAT[24] 、Stmtrack[25]方法,基于Transformer的STARK[6]、AiATrack[26]、ProContEXT[27]、OSTrack、TransT[28]方法以及基于点云3D的SimTrack[29]方法进行对比,表3为对比结果,从表中看出,本文方法成功率为82.9%,精确率为80.4%,归一化精度为87.4%。
表3 TrackingNet数据集上的对比结果 单位:%

Tab.3 Comparison results on the TrackingNet dataset

方法 成功率 归一化精度 精度
SiamFC 57.1 66.3 53.3
Ocean 69.2 79.4 68.7
SiamRPN+ + 73.3 80.0 69.4
SiamGAT 75.3 80.7 69.3
SimTrack 82.3 86.5
Stmtrack 80.3 85.1 76.7
TransT 81.4 86.7 80.3
STARK 82.0 86.9
AiATrack 82.7 87.8 80.4
OSTrack 83.9 88.5 83.2
ProContEXT 83.0 88.0 82.5
STFEP 82.9 87.4 80.4
STFEP优于基于孪生网络的跟踪方法,成功率和精度略低于ProContEXT方法, 可能是由于本模型在大规模和多样性数据集上泛化能力略有不足。然而,STFEP在性能上优于大多数基于Transformer网络的跟踪方法。这是因为基于孪生网络的方法无法有效建模全局信息,而大多数基于Transformer的方法没有充分利用时间信息以及图像局部特征。相比之下,本文所提方法通过获取可靠必要的时间信息,并且将全局与局部特征信息融合,从而捕捉到目标更加丰富的特征表示,这样的设计使得模型能够更加准确鲁棒地对目标进行跟踪。

3.3.2 GOT-10k数据集实验结果与分析

在GOT-10k测试集上将STFEP与基于孪生网络的SiamFC、SiamDW[30]、SiamRPN+ +、SiamFC+ +[31]、Ocean方法,基于点云3D的SimTrack方法以及基于Transformer的TransT、STARK、AiATrack、OSTrack和ProContEXT跟踪方法进行对比,对比结果如表4所示。从表中可以看出,STFEP方法平均重叠率为73.7%,成功率SR0.5和SR0.75分别为83.8%和70.6%。这些指标反映了本文所提方法在处理GOT-10k数据集中各种复杂场景和运动模式下的出色表现,表明了其在目标跟踪任务中的有效性和鲁棒性。STFEP与对比方法相比,能够充分利用时间信息,并且通过对全局和局部特征信息进行建模,有效地提取和融合目标特征,从而实现更精确和可靠的目标跟踪。
表4 GOT-10k数据集上的对比结果

Tab.4 Comparison results on the GOT-10k dataset

方法 AO SR0.5 SR0.75
SiamFC 34.8 35.3 9.8
SiamDW 42.9 48.3 14.7
SiamRPN+ + 51.7 61.6 32.5
SiamFC+ + 59.5 69.5 47.3
Ocean 61.1 72.1 47.3
SimTrack 68.6 78.9 62.4
TransT 67.1 76.8 60.9
STARK 68.8 78.1 64.1
AiATrack 69.6 80 63.2
OSTrack 73.7 83.2 70.8
ProContEXT 73.0 83.0 69.0
STFEP 73.7 83.8 70.6
在GOT-10k数据集上的对比实验中,通过将跟踪性能与每秒帧数(FPS)进行可视化(图3中圆圈的大小表示FPS和AO的加权和)。结果表明,本文提出的方法在速度和准确性上均优于其他对比跟踪器。通过时空特征分析与感知,本模型增加了包含目标关键时刻特征信息的动态模板,同时保持了高效的跟踪速度,实现了快速且准确的目标跟踪。
图3 在GOT-10k数据集上与其他跟踪器的比较

Fig.3 Comparison with other trackers on the GOT-10k dataset

3.3.3 LaSOT数据集实验结果与分析

LaSOT是一个大规模、高质量、具有密集注释的数据集,涵盖了不同环境中的丰富类别适用于长期视频跟踪。在LaSOT测试集上,将STFEP方法与基于孪生网络的SiamFC、 SiamMask[32]、DiMP[33]方法,基于Transformer的OSTrack256、ProContEXT、MixForme1k、SwinTrackT[34]、SparseTT[35]、TransT方法进行对比。图4为整体对比结果,其中a~c分别代表成功率、精确率和归一化精度对比结果。从图中可以看出,STFEP方法的成功率为69.4%,精度为74.2%,归一化精度为79.5%。通过将全局信息和局部信息进行关联,STFEP方法取得了具有竞争力的结果。
图4 LaSOT数据集精度对比整体对比结果

注:网络版为彩图。

Fig.4 Overall comparison results of LaSOT dataset

为进一步对所提出的STFEP方法进行验证,本文进一步进行了属性分析的实验,选择了包含多种挑战属性的LaSOT数据集作为评估基准,其包含全部遮挡、运动模糊、比例变化、相机移动、形变、光亮变化、视点变化、旋转、移出视野、背景杂乱、快速移动、部分遮挡、纵横比变化、低分辨率14种多样性的挑战。图5展示了本文所提方法与多种对比方法在各种挑战下的成功率比较结果。通过雷达图可以看出,所提方法在背景杂乱、快速移动、运动模糊、相机移动等多种挑战环境下性能明显优于其他对比方法。实验结果充分表明,所提方法能够有效利用时空信息获取目标在跟踪过程中的动态变化,缓解模型在不同挑战场景下的性能下降问题,提高了跟踪的成功率。
图5 LaSOT数据集不同挑战属性成功率对比结果

注:网络版为彩图。

Fig.5 Comparison of success rates of different challenge attributes in LaSOT dataset

此外,还将本文方法与对比方法在不同挑战属性上的精度进行了比较,如图6所示。可以看出在视点变化、运动模糊、快速移动、完全遮挡属性上取得了最佳精度,同时在移除视野、视点变化、背景杂乱等其他挑战环境下也展现出了优越的性能。本文通过捕捉丰富的时间上下文特征,极大地提高了模型准确定位的能力,通过充分利用时间信息,该方法能够对不同的挑战属性做出更精确的响应。
图6 LaSOT数据集不同挑战属性精度对比结果

注:网络版为彩图。

Fig.6 Comparison of precision rates of different challenge attributes in LaSOT dataset

精度对比和属性分析提供了定量结果,展示了本文方法在数值指标上的优越性。为了进一步展示本文方法的直观优势,本文对不同对比方法进行了定性比较,从视觉效果上直观展示跟踪性能的差异。在图7中可以清楚地看到,对比方法在一些具有挑战性的场景下,如目标遮挡、快速移动和背景中存在相似物体时,往往会出现跟踪不准确甚至目标丢失的情况。然而,本文提出的方法在应对这些复杂场景时表现出了显著的优势,能够有效处理各种干扰因素,仍然能够稳定而准确地跟踪目标。这表明本文方法不仅在定量指标上具有优势,在实际应用中也展现出了更高的鲁棒性和可靠性。
图7 在LaSOT数据集上可视化跟踪

注:网络版为彩图。

Fig.7 Visual tracking on LaSOT dataset

3.3.4 UAV123数据集实验结果与分析

UAV123是一个具有高度权威性的数据集,与一般的目标跟踪数据集不同,UAV123针对特定的无人机跟踪场景,其中目标对象相对较小,并且在空中跟踪序列中经常发生位置和方向的变化。这种特殊性只能依赖有限的视觉线索,而无法依赖强大的外观模型,因此在UAV123数据集中的目标跟踪任务相比其他基准数据集更为具有挑战性。为了进一步验证STFEP方法在这种复杂场景下的有效性,将本文方法与基于孪生网络的Ocean、TrDiMP[7] 、TrSiam[7]方法,基于Transformer的ProContEXT、SparseTT、 MixFormer1k、 OSTrack256、 TransT、AutoMatch[36]方法进行对比,整体对比结果如图8所示。从图中可以看出,STFEP方法取得了令人满意的表现。成功率达到69.5%,精度达到91.1%,在2个指标上都优于其他多数跟踪方法,这些比较结果进一步证明了STFEP方法在应对复杂跟踪任务时同样具有出色的准确性和鲁棒性。
图8 UAV123数据集整体对比结果

注:网络版为彩图。

Fig.8 Overall comparison results of UAV123 dataset

4 结论

本文提出一种时空特征融合与感知的视觉目标跟踪方法。该方法首先使用Transformer实现了模板区域与搜索区域的上下文特征提取,然后利用Transformer的注意力机制将二者进行有效的融合,以获取目标的全局空间特征信息。为进一步弥补注意力机制局部信息获取弱的短板,本文通过设计局部卷积神经网络,提取目标细致的局部空间特征信息,并将其与目标的全局特征信息相关联,增强了目标的特征信息。此外,引入时空特征感知,通过对不同时刻的时空信息进行分析,使模型能够捕捉到丰富的时间线索,进一步提高模型对目标外观以及场景变换下的跟踪性能。未来,将继续探索时间信息的获取与融合机制,利用更多更准确的时间信息进行跟踪,以更好地适应动态的目标变化和复杂的应用场景。
[1]
BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking[C]//European Conference on Computer Vision. Cham: Springer, 2016:850-865.

[2]
程旭, 刘丽华, 王莹莹, 等. 基于多帧一致性修正的自监督孪生网络目标跟踪方法[J]. 计算机学报, 2022, 45(12): 2544-2560.

CHENG X, LIU L H, WANG Y Y, et al. A multi-frame consistency correction based self-supervised Siamese network method for object tracking[J]. Chinese Journal of Computers, 2022, 45(12): 2544-2560.

[3]
LI B, WU W, WANG Q, et al. SiamRPN:evolution of Siamese visual tracking with very deep networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),Long Beach,CA,USA. New York: IEEE, 2019:4277-4286.

[4]
黄旺辉, 冯永, 强保华, 等. SiamCross:孪生交叉的目标跟踪对象感知网络[J]. 计算机学报, 2022, 45(10): 2151-2166.

HUANG W H, FENG Y, QIANG B H, et al. SiamCross: Siamese cross object-aware networks for visual object tracking[J] Chinese Journal of Computers, 2022, 45(10): 2151-2166.

[5]
ZHAO M J, OKADA K, INABA M. TrTr:visual tracking with Transformer[EB/OL].[2024-07-23]. http://arxiv.org/abs/2105.03817.

[6]
MAYER C, DANELLJAN M, BHAT G, et al. Transforming model prediction for tracking[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),New Orleans,LA,USA. New York: IEEE, 2022:8721-8730.

[7]
ZHU Z, WANG Q, LI B, et al. Distractor-aware Siamese networks for visual object tracking[M]//Lecture notes in computer science. Cham: Springer International Publishing, 2018:103-119.

[8]
YAN B, PENG H W, FU J L, et al. Learning spatio-temporal Transformer for visual tracking[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV),Montreal,QC,Canada. New York: IEEE, 2021:10428-10437.

[9]
WANG N, ZHOU W G, WANG J, et al. Transformer meets tracker:exploiting temporal context for robust visual tracking[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Nashville,TN,USA. New York: IEEE, 2021:1571-1580.

[10]
JAVED S, DANELLJAN M, KHAN F S, et al. Visual object tracking with discriminative filters and Siamese networks:a survey and outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(5):6552-6574.

[11]
MA F, SHOU M Z, ZHU L C, et al. Unified Transformer tracker for object tracking[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),New Orleans,LA,USA. New York: IEEE, 2022:8771-8780.

[12]
薛万利, 张智彬, 裴生雷, 等. 混合目标与搜索区域令牌的视觉目标跟踪[J]. 计算机研究与发展, 2024, 61(2): 460-469.

XUE W L, ZHANG Z B, PEI S L, et al. Mixing tokens from target and search regions for visual object tracking[J]. Journal of Computer Research and Development, 2024, 61(2): 460-469.

[13]
ZHANG J Q, DONG B, ZHANG H W, et al. Spiking transformers for event-based single object tracking[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),New Orleans,LA,USA. New York: IEEE, 2022:8791-8800.

[14]
FAN H, BAI H X, LIN L T, et al. LaSOT:a high-quality large-scale single object tracking benchmark[J]. International Journal of Computer Vision, 2021, 129(2):439-461.

[15]
HUANG L H, ZHAO X, HUANG K Q. GOT-10k:a large high-diversity benchmark for generic object tracking in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5):1562-1577.

[16]
MÜLLER M, BIBI A, GIANCOLA S, et al. TrackingNet:a large-scale dataset and benchmark for object tracking in the wild[C]//European Conference on Computer Vision. Cham: Springer, 2018:310-327.

[17]
CAO Z A, FU C H, YE J J, et al. HiFT:hierarchical feature Transformer for aerial tracking[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV),Montreal,QC,Canada. New York: IEEE, 2021:15437-15446.

[18]
MEINHARDT T, KIRILLOV A, LEAL-TAIXé L, et al. TrackFormer:multi-object tracking with transformers[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),New Orleans,LA,USA. New York: IEEE, 2022:8834-8844.

[19]
YE B T, CHANG H, MA B P, et al. Joint feature learning and relation modeling for tracking:a one-stream framework[M]//Lecture notes in computer science. Cham: Springer Nature Switzerland, 2022:341-357.

[20]
CUI Y T, JIANG C, WANG L M, et al. MixFormer:end-to-end tracking with iterative mixed attention[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),New Orleans,LA,USA. New York: IEEE, 2022:13598-13608.

[21]
ZHAO F, ZHANG T, SONG Y B, et al. Siamese regression tracking with reinforced template updating[J]. IEEE Transactions on Image Processing, 2020, 30: 628-640.

[22]
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words:Transformers for image recognition at scale[EB/OL].[2024-07-23]. http://arxiv.org/abs/2010.11929.

[23]
ZHANG Z P, PENG H W, FU J L, et al. Ocean:object-aware anchor-free tracking[M]//Lecture notes in computer science. Cham: Springer International Publishing, 2020:771-787.

[24]
GUO D Y, SHAO Y Y, CUI Y, et al. Graph attention tracking[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Nashville,TN,USA. New York: IEEE, 2021:9538-9547.

[25]
FU Z H, LIU Q J, FU Z H, et al. STMTrack:template-free visual tracking with space-time memory networks[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Nashville,TN,USA. New York: IEEE, 2021:13769-13778.

[26]
GAO S Y, ZHOU C L, MA C, et al. AiATrack:attention in attention for Transformer visual tracking[M]//Lecture notes in computer science. Cham: Springer Nature Switzerland, 2022:146-164.

[27]
LAN J P, CHENG Z Q, HE J Y, et al. Procontext:exploring progressive context Transformer for tracking[C]//ICASSP 2023—2023 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Rhodes Island,Greece. New York: IEEE, 2023:1-5.

[28]
CHEN X, YAN B, ZHU J W, et al. Transformer tracking[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Nashville,TN,USA. IEEE, 2021:8122-8131.

[29]
LUO C X, YANG X D, YUILLE A. Exploring simple 3D multi-object tracking for autonomous driving[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV),Montreal,QC,Canada. New York: IEEE, 2021:10468-10477.

[30]
ZHANG Z P, PENG H W. Deeper and wider Siamese networks for real-time visual tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Long Beach,CA,USA. New York: IEEE, 2019:4586-4595.

[31]
XU Y D, WANG Z Y, LI Z X, et al. SiamFC++:towards robust and accurate visual tracking with target estimation guidelines[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7):12549-12556.

[32]
HU W M, WANG Q, ZHANG L, et al. SiamMask:a framework for fast online object tracking and segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(3):3072-3089.

[33]
BHAT G, DANELLJAN M, VAN GOOL L, et al. Learning discriminative model prediction for tracking[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV),Seoul,Korea (South). New York: IEEE, 2019:6181-6190.

[34]
LIN L T, FAN H, XU Y, et al. SwinTrack:a simple and strong baseline for transformer tracking[EB/OL].[2024-07-23]. http://arxiv.org/abs/2112.00995.

[35]
FU Z H, FU Z H, LIU Q J, et al. SparseTT:visual tracking with sparse Transformers[EB/OL].[2024-07-23]. http://arxiv.org/abs/2205.03776.

[36]
ZHANG Z P, LIU Y H, WANG X, et al. Learn to match:automatic matching network design for visual tracking[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV),Montreal,QC,Canada. New York: IEEE, 2021:13319-13328.

Outlines

/