基于改进YOLOv7的输电铁塔塔基检测算法

雷磊; 魏小龙; 梁俊; 董倩; 肖樟树

doi:10.15983/j.cnki.jsnu.2024012

陕西师范大学学报(自然科学版) >

2024 , Vol. 52 >Issue 3: 85 - 95

DOI: https://doi.org/10.15983/j.cnki.jsnu.2024012

人工智能专题主持人：谢娟英

基于改进YOLOv7的输电铁塔塔基检测算法

雷磊 ¹^,² ,
魏小龙 ¹^,² ,
梁俊 ³ ,
董倩 ⁴ ,
肖樟树 ^,⁴^,^*

展开

¹ 国网陕西省电力有限公司电力科学研究院,陕西西安 710100
² 国网(西安)环保技术中心有限公司,陕西西安 710100
³ 国网陕西省电力有限公司,陕西西安 710048
⁴ 陕西师范大学计算机科学学院,陕西西安 710119

*肖樟树,男,副教授,硕士生导师,主要从事图像处理与目标检测研究。E-mail:2602679724@qq.com

Copy editor: 宋轶文

收稿日期: 2023-09-16

网络出版日期: 2024-05-24

基金资助

陕北地区电网工程水土流失及次生灾害风险识别与治理关键技术研究与应用(5226KY22000K)

国家自然科学基金(61672333)

收起

A novel algorithm based on the improved YOLOv7 for detecting transmission tower base

LEI Lei ¹^,² ,
WEI Xiaolong ¹^,² ,
LIANG Jun ³ ,
DONG Qian ⁴ ,
XIAO Zhangshu ^,⁴^,^*

Expand

¹ State Grid Shaanxi Electric Power Co. LTD., Electric Power Research Institute, Xi’an 710100, Shaanxi, China
² State Grid (Xi’an) Environmental Protection Technology Center Co. LTD, Xi’an 710100, Shaanxi, China
³ State Grid Shaanxi Electric Power Co. LTD, Xi’an 710048, Shaanxi, China
⁴ School of Computer Science, Shaanxi Normal University, Xi’an 710119, Shaanxi, China

Received date: 2023-09-16

Online published: 2024-05-24

Fold

摘要

输电塔作为整个电力传输系统最重要的组成部分之一,需要及时对输电塔进行检测保证塔基的稳固以保障后期的使用。针对无人机采集到的输电塔图像存在背景复杂、背景与目标塔基对比度低、小目标及塔基不完整等问题,提出了基于改进YOLOv7的输电塔塔基检测算法。首先,通过无人机采集不同地形地貌的输电塔图像,构建高质量数据集。然后,在原始YOLOv7的Backbone层中加入卷积注意力模块CBAM注意力机制,以提高输电塔塔基特征的提取能力。最后,引入WIoU v3代替原坐标损失函数CIoU,以提高目标检测任务的准确性和稳定性。在该数据集上,使用改进后的YOLOv7算法与目前主流的目标检测算法进行对比实验,实验结果中所提算法的mAP值高达99.93%,比原始YOLOv7提高2.19%,FPS值为37.125,满足实时检测需求,算法的整体性能较好。实验验证了所提算法在塔基检测上的可行性和有效性,为后续塔基区周围水土情况的研究奠定了基础。

关键词： 输电塔塔基; YOLOv7; 目标检测; 卷积块注意力模块; WIoU v3

本文引用格式

雷磊 , 魏小龙 , 梁俊 , 董倩 , 肖樟树 . 基于改进YOLOv7的输电铁塔塔基检测算法[J]. 陕西师范大学学报(自然科学版), 2024 , 52(3) : 85 -95 . DOI: 10.15983/j.cnki.jsnu.2024012

Abstract

The pylon is one of the most important components in the entire power transmission system.It is necessary to timely inspect the tower to ensure the stability of the base for the later use. There are problems of the transmission tower images collected by UAV have complex backgrounds, the background is similar to the base of target tower, as well as small objects and incomplete tower base, this paper proposes an improved YOLOv7 algorithm for detecting the base of tower. Firstly, using the pylon images of different landforms to construct high-quality data sets. Then CBAM attention mechanism is added to the Backbone layer of the original YOLOv7 to improve the feature extraction ability of the pylon. Finally, introducing WIoU v3 instead of the original coordinate loss function CIoU to improve the veracity and stability of target detection tasks. On this dataset, a comparative experiment was conducted using the improved YOLOv7 algorithm and the current mainstream object detection algorithm. The mAP value of our algorithm is as high as 99.93% in the experimental results, it is 2.19% higher than the original YOLOv7, the FPS value is 37.125, which meets the real-time detection requirements, and the overall performance of the algorithm is good. It’s feasible and effective in detection tasks of towers’ base for our algorithm, which has been proven by the experiments in this paper, and laying the foundation for future research on the soil and water around the base of tower.

Key words： transmission tower base; YOLOv7; object detection; convolutional block attention module(CBAM); WIoU v3

现如今,工业生产和人们的日常生活对电力的需求不断增长。国家能源局公布的2022年度电力工业统计数据显示,到2022年12月末,我国发电装机容量累计达到25.6亿千瓦左右,同比增长7.8%^[1]。输电塔作为电力传输系统中的重要组成部分,主要用于支撑高压输电线路,其塔基的承载能力和稳定性直接影响着输电线路能否安全运行。

近年来,由于山体滑坡等因素引起的电塔倒塌事故常有发生,往往会导致电力中断、财产损失甚至人员伤亡,同时伴随着旧塔基的拆除和新塔基的搭建,为保证塔基的稳固需要及时对输电塔塔基进行检测。传统的输电塔塔基检测工作常采用人工巡检的方式,但针对所处地区偏僻、自然条件复杂的输电塔而言,人工检测难度非常大。不仅需要投入大量的人力物力等资源,而且还存在着测量数据不准确、遗漏等问题。近年来,在无人机、遥感影像和深度学习等先进技术的推动下,输电塔塔基自动检测应运而生。

1 相关工作

近年来,数字图像处理不断发展,目标检测作为其中的一个重要应用,由最初的传统方法到现在结合深度学习的方法,经过二十多年的发展,在提高检测精度的同时检测速度也越来越快。早期传统的电塔检测方法,如Tilawat等^[2]通过将霍夫变换应用于二维IIR滤波器提取直线来检测输电塔。Li等^[3]通过霍夫变换检测直线从无人机图像中提取电力线,采用基于知识的线聚类方法来优化检测结果。何思远等^[4]采用区域密度法、投影法和斜率统计方法对输电塔进行检测。尽管早期传统检测方法已经取得了一定的成效,但在复杂环境下,很难确保检测精度。

在当前的研究中,以卷积神经网络为基础的目标检测方法被广泛应用,主要分为两类:双阶段目标检测和单阶段目标检测。双阶段目标检测是从输入图像中随机选出几千个候选区域,然后以这些候选框为基础进行二次修改,从而获得最终检测结果,虽然它的检测准确率比较高,但检测速度比较慢。双阶段目标检测的代表算法有R-CNN^[5]、Faster R-CNN^[6]等。Wang等^[7]使用Faster R-CNN对输电塔进行识别研究,并在小样本的情况下,对输电塔的检测取得了较好的识别效果。曹志勇等^[8]对Faster-RCNN进行了改进,将主干提取网络替换为ResNet-50,同时在检测过程中加入了多尺度特征融合技术。单阶段目标检测的代表就是YOLO系列算法,有YOLOv1^[9]、YOLOv2^[10]、YOLOv3^[11]等。为了解决密集目标检测的复杂场景中YOLOv3算法漏检现象,宋成根等^[12]将损失函数DIoU和非极大值抑制算法相结合,以提高杆塔目标检测的精度。Mo等^[13]将YOLOv4用于电塔的检测,对输电铁塔损坏的检测起到积极的作用。孙乐杨等^[14]将GDAL模块应用于YOLOv5网络中,以识别输电塔的地理坐标。目前,YOLO系列主流的目标检测算法YOLOv7^[15],在5~160帧/s的范围内检测精度和速度超过了绝大多数目标检测器。因此,本文尝试将YOLOv7应用到自建的输电塔数据集上,并对模型做出改进以提高输电塔检测算法的准确性和速度,为后续塔基区周围水土情况的研究奠定基础。本文的主要工作包括:1) 对无人机采集到的复杂地形下的图像进行筛选和预处理操作,保证数据集的高质量和多样性;2) 在原网络结构的Backbone层中添加CBAM^[16]注意力机制,用于提高对输电塔塔基特征的提取能力;3)引入WIoU v3^[17]代替原坐标损失函数CIoU^[18],以提高目标检测任务的准确性和稳定性。通过实验对比,发现改进后的算法检测精度得到了提高,为输电塔塔基高效检测提供了一种有效方案。

2 数据集

2.1 数据来源

数据集在深度学习任务中发挥着关键作用,标注良好的多样性数据集能够使模型具有更强的健壮性。由于大多数输电塔位于偏远地区,呈零星分布,人工采集图像费力耗时,同时为弥补在输电塔塔基研究中数据不足并且开展针对性的研究工作,本文在陕北不同地点利用无人机采集实验数据,同时为了体现数据集的多样性,从不同的角度进行采集,共采集图像8 468幅,其中榆林市3 945幅,延安市4 523幅,详细情况见表1。然后从采集的输电塔数据集中编写程序去除没有包含电塔或塔基面积过小的图像,筛选出背景复杂,电塔角度不同的图像共2 800幅,部分图像如图1所示。

表1 无人机采集数据相关参数

Tab.1 Drone data acquisition related parameters

来源	采集时间	分辨率	数量/幅
榆林市	2022年9~10月	5 472像素×3 648像素	3 945
延安市	2020年8~10月	5 472像素×3 648像素	4 523

显示原图|下载原图ZIP|生成PPT

图1 数据集部分数据展示

Fig.1 Part data of dataset

2.2 数据预处理

为便于模型训练,本文将图像大小下采样至1 915像素×1 276像素(模型能自动将图片裁剪成640像素×640像素大小)。然后,利用OpenCV对图像进行随机旋转、镜像、垂直或水平翻转、亮度平衡等数据增强操作,将得到的3 495幅图片用作本文的实验数据。最后,对操作后的图像大致按8∶1∶1的比例进行随机划分:训练集2 830幅,验证集315幅,测试集350幅。

2.3 数据标注

本文使用已发布的LabelImg标记软件人工标注^[19]每幅图像,标记结果以XML文件格式保存,文件内容包括图像的类别、目标框的坐标、图像的大小和深度,标注过程如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 数据标注示例

Fig.2 Example of data annotation

3 YOLOv7算法

YOLOv7网络结构主要分为输入端、Backbone和head三大部分,如图3所示。输入端是对输入图片进行图像预处理相关操作;Backbone层主要进行特征信息的提取,其中E-ELAN模块提高了网络的学习能力,并指导不同的计算模块来学习更多的多样化特征;head层由SPPCSPC层、若干MPConv层、若干Catconv层以及Rep层组成,SPPCSPC层通过在不同尺度上进行池化操作来捕捉多个感受野的特征信息,以便更好地适应不同大小的目标,并通过跨阶段部分连接的方式使得特征能够更快地从主干流传播到支路流,从而提高特征的表达能力,最后经过Rep层输出检测结果。总体而言,YOLOv7从模型结构重参数化和动态标签分配两方面对网络进行了优化。在规划重参数化模型上,通过分析梯度流传播路径和对网络中不同模块的重参数化策略,并且结合重参数化卷积对不同模块进行处理,YOLOv7既保留了网络预测性能,又减少了网络复杂度。YOLOv7的动态标签分配策略将YOLOv5和YOLOX中的正负样本分配策略进行结合,筛选出更多正样本,以提升召回率。最后,采用多种Detect检测头,对特征信息解耦,进而确认目标的位置和类别,提高了网络模型的特征提取能力,使得目标检测的精确度得到了提高。

显示原图|下载原图ZIP|生成PPT

图3 YOLOv7网络结构

注:网络版为彩图。

Fig.3 YOLOv7 network architecture

4 YOLOv7检测算法的改进

4.1 CBAM

本研究是对复杂地形下的输电塔塔基进行检测,常常会出现塔基底不完整的情况,根据现实检测需求,提出添加卷积块注意力模块(convolutional block attention module,CBAM)混合注意力机制的改进算法。CBAM由通道注意力模块(CAM)和空间注意力模块(SAM)构成,如图4所示。通道注意力聚焦于“什么”是有意义的,计算过程如式(1)所示。

显示原图|下载原图ZIP|生成PPT

图4 CBAM结构图

Fig.4 CBAM structure diagram

(1)

M_C(F)=σ(MLP(AvgPool(F))+

MLP(MaxPool(F)))=

σ(W₁(W₀( $F C a v g$ ))+W₁(W₀( $F C m a x$ )))。

式中:F为输入特征图,MLP为多层感知器;σ表示sigmoid函数;

F C a v g

和

F C m a x

分别为平均池化特征和最大池化特征;W₀∈

R C / r 1 × C

,W₁∈

R C × C / r 1

;r₁为缩减比。使用全局平均池化和最大池化操作后,再与多层感知器进行融合,然后通过激活函数sigmoid生成通道映射M_C∈R^C^×1×1,其中C表示通道数。

空间注意力聚焦于“在哪里”需要关注,对通道注意力模块进行辅助,计算过程如式(2)所示。

(2)M_S(F)=σ(f^7×7([AvgPool(F);MaxPoo(F)]))=σ(f^7×7(

F S a v g

;

F S m a x

]))。

式中:f^7×7为滤波大小为7×7的卷积操作;

F S a v g

∈R^1×^H^×^W,

F m a x S

∈R^1×^H^×^W,H和W表示特征图的高和宽。输入特征图沿着通道方向进行平均池化和最大池化操作后,再经过融合和卷积,通过激活函数sigmoid生成空间注意力特征信息,最后与输入特征图相乘得到输出特征图。

4.2 损失函数的改进

损失函数用来衡量预测标签和真实标签之间的差异程度。一个好的损失函数应该在目标框和真实框重合时弱化几何因素的惩罚,从而使模型获得更好的泛化能力。合适的损失函数可以使得模型加快收敛,以此提高目标检测的精准度和稳定性。

YOLOv7原坐标损失函数CIoU,不仅考虑目标框与真实框的重叠度和中心点间的距离,还进行长宽比的衡量,能够较为准确地判断预测框和真实框之间的相似程度。

但电网工程所处自然条件背景复杂,无人机采集到的塔基训练集中不可避免地包含低质量的数据。距离、纵横比等几何因素会加重低质量数据的惩罚,从而降低模型的泛化性能。引用动态非单调的聚焦机制,即Wise-IoU来代替YOLOv7原有损失中的CIoU。

Wise-IoU共有3个版本:WIoU v1构造了基于注意力的边界框损失,WIoU v2和WIoU v3则是在此基础上进行改进。WIoU v1定义见公式(3)~(5)所示。

(3)L_WIoUv1=R_WIoUL_IoU,

(4)R_WIoU=exp

(x - x g t) 2 + (y - y g t) 2 (W g 2 + H g 2)

(5)L_IoU=1-

L I o U *

。

式中:x和y是预测框的中心点坐标;x_gt和y_gt是真实框的中心点坐标;W_g和H_g是包含预测框和真实框的最小矩形的宽高;R_WIoU是惩罚项,R_WIou∈[1,e),用以对参数进行限制以降低模型复杂度,其将显著放大普通质量锚框的L_IoU;L_IoU是预测框的IoU损失,L_IoU∈[0,1],其将显著降低高质量锚框的R_WIoU,并在锚框与目标框重合较好的情况下显著降低其对中心点距离的关注。

WIoU v3定义了一个离群度β,用来替代IoU来描述锚框的质量,其定义为

(6)β=

L I o U * L I o U

∈[0,+∞)。

离群度β用于衡量某一对象相较大部分对象的偏离程度,即代表某一预测框的IoU损失

L * I o U

相较大部分预测框IoU损失L_IoU的偏离程度,β的大小直接反映预测框的质量高低。我们为离群度较大的预测框赋予较小的梯度增益,以降低质量差示例中有害梯度的占比,并为离群度较小的预测框赋予较大的梯度增益,以使边界框聚焦到普通质量的预测框上。基于上述思想,构造一个非单调聚焦系数r,并将其应用于WIoU v1,得到WIoU v3损失函数

(7)L_WIoUv3=rL_WIoUv1, r=

β δ α β - δ

式中α和δ是事先给定的参数。

WIoU v3通过构造梯度增益的计算方法附加聚焦机制,来减少低质量锚框的干扰,即本文使用WIoU v3损失函数来替换原CIoU Loss,进一步提高了回归精度。

4.3 改进后的YOLOv7检测算法

由于存在背景与目标塔基对比度低、塔顶干扰、小目标以及塔基不完整等现实情况,会导致原YOLOv7模型对目标塔基的漏检和误检。为进一步提高塔基检测的精确度,本文在YOLOv7的基础上进行改进:首先将CBAM注意力模块集成到Backbone层的E-ELAN模块中,将E-ELAN中的一个BConv卷积替换为CBAM模块,在控制输入特征图进入最短和最长的梯度路径时,通过CBAM注意力模块提高对塔基的特征提取能力,使网络能够学习到更多的塔基特征,有助于增强模型对输电塔塔基的识别和定位能力,从而提高目标检测任务的准确性,并且具有更强的鲁棒性。然后,使用新的损失函数WIoU v3替换原YOLOv7目标检测头部(head)损失计算过程中使用的坐标损失函数CIoU来优化网络模型。在检测头部,通过损失函数WIoU v3度量预测框的位置和尺寸与真实框之间的差异来调整模型参数,来最小化损失,逐渐优化模型,提高在目标检测任务上的表现。改进后的YOLOv7网络结构图如图5所示。

显示原图|下载原图ZIP|生成PPT

图5 改进的YOLOv7网络结构

注:网络版为彩图。

Fig.5 Improved YOLOv7 network architecture

5 实验与结果分析

5.1 实验环境设置

鉴于YOLOv7在基准数据集上具有较好的检测结果,具备一定的通用性和泛化能力。因此使用预训练好的模型作为基础模型,在本文数据集上微调参数并进行进一步的训练。同时在训练初期冻结主干特征提取网络,防止权值被破坏的同时可以缩短训练时间,并且有助于防止过拟合现象。训练后期进行解冻训练,通过解冻主干特征提取网络并进行端到端的训练,来进一步改善特征表示和分类性能。训练环境及相关参数具体设置如表2所示。

表2 训练环境及参数设置

Tab.2 Training environment and parameter settings

训练环境及参数	相关配置
深度学习框架	Pytorch 1.8.0
Python版本	3.8.0
GPU	TITAN Xp
优化器类型	Adam
Epoch(Freeze +Unfreeze)	100
批大小	4
初始学习率	0.01
Momentum	0.937
Optimizer weight decay	0.000 5

5.2 评价指标

本文使用精确度(precision,P)、召回率(recall,R)和平均精确度均值(mean average precision,mAP,记作P_mA)对模型性能进行评价。定义如式(8)~(11)所示。

(8)P=

T P T P + F P

(9)R=

T P T P + F N

。

精确度和召回率是分类问题中常用的评估指标,它们可以用来评价分类器的性能。精确度P针对预测结果,指在预测值中某类别正确预测的概率;召回率R针对真实结果,指在真实值中某类别被正确预测的概率。T_P为真正例,F_P为假正例,F_N为假反例。

(10)

P A = ∫ 01 P (r) d r,

(11)

P m A = ∑ i = 1 N P A i / N 。

以精确度和召回率为横纵坐标来绘制出每个类别的Precision-Recall(P-R)曲线。通过对P-R曲线进行积分可以得到某一类别的平均精确度(averageprecision,AP,记作

P A

)。对所有N个类别的AP值求平均得到mAP,它反映了模型在N个类别上的综合性能。

5.3 实验结果及分析

5.3.1 CBAM有效性验证

为了验证在原YOLOv7的Backbone层中加入CBAM注意力机制在本文数据集上进行目标检测的有效性,在原网络结构中主干网络的相同位置通过控制变量法,分别与通道注意力机制SE^[20]和ECA^[21]、序列注意力机制GAM^[22]、局部注意力机制SimAM^[23]进行实验对比。实验对比结果见表3所示。

表3 注意力机制实验对比结果

Tab.3 Comparative results of attention mechanism experiments

模型	mAP/%
YOLOv7	97.74
YOLOv7+SE	97.90
YOLOv7+ECA	98.23
YOLOv7+GAM	95.36
YOLOv7+SimAM	94.83
YOLOv7+CBAM	98.97

如表3所示,在本文的数据集上,通过控制变量法在原YOLOv7的Backbone层中添加不同的注意力机制,发现平均精确度均值mAP有不同的表现,说明不同的注意力机制在本文的数据集上对模型性能有不同程度的影响。发现添加混合注意力机制后,mAP的值最好,证明CBAM注意力机制可以帮助网络更好地聚焦于输电塔塔基关键信息,以提高目标检测的准确性。

5.3.2 WIoU v3有效性验证

为了验证WIoU v3代替YOLOv7中的原坐标损失函数CIoU在本文数据集上的有效性,通过控制变量法,分别使用EIoU^[24]、SIoU^[25]和AlphaIoU^[26]替换在原YOLOv7目标检测头部损失计算过程中所使用的CIoU来进行实验对比。实验对比结果见表4所示。

表4 损失函数实验对比结果

Tab.4 Comparison results of loss function experiments

模型	mAP/%
YOLOv7 (CIoU)	97.74
YOLOv7 (EIoU)	93.37
YOLOv7 (SIoU)	94.56
YOLOv7 (AlphaIoU)	97.98
YOLOv7 (WIoU v3)	98.47

如表4所示,在本文的数据集上,通过控制变量法,由不同的损失函数来替换原YOLOv7目标检测头部损失计算过程中使用的坐标损失函数CIoU,通过对比实验结果中的mAP值发现,将坐标损失函数改进为WIoU v3的模型取得最高的mAP值,即损失函数WIoU v3的引入提高了目标检测模型在边界框匹配和定位方面的性能和鲁棒性,提升了目标检测模型的性能和精度。

5.3.3 消融实验

本文在Backbone层中添加CBAM注意力机制,然后在检测头部分引入WIoU v3代替原坐标损失函数CIoU,来对原YOLOv7模型进行改进。为验证这两部分改进对于塔基目标检测的贡献,通过消融实验进行对比,实验对比结果见表5所示。

表5 消融实验

Tab.5 Ablation experiment

模型	CBAM	WIoU v3	参数量/M	计算量/G	FPS	mAP/%
YOLOv7	×	×	34.791	103.2	39.759	97.74
YOLOv7+CBAM	√	×	37.245	105.2	37.417	98.97
YOLOv7 (WIoU v3)	×	√	35.473	105.1	38.910	98.47
YOLOv7+CBAM (WIoU v3)	√	√	37.387	106.4	37.125	99.93

如表5中的消融实验结果所示,在Backbone层中添加CBAM注意力机制,mAP提高了1.23%,可见CBAM注意力机制模块可以帮助模型更好地捕捉不同尺度的空间信息,能够帮助模型更好地理解图像中的输电塔塔基特征,来强化特征表达,以提高塔基目标检测的准确性。在检测头部引入WIoU v3代替原坐标损失函数CIoU,mAP提高了0.73%,该策略在降低高质量锚框竞争力的同时,也减小了低质量示例产生的有害梯度。这使得WIoU v3可以聚焦于普通质量的锚框,提高了塔基检测的精度。本文算法同时引用CBAM注意力机制和WIoU v3损失函数,相较原网络模型,每秒处理的图像帧数FPS降低了2.634帧,虽然参数量和计算量分别增加2.596 M和3.2 G,但改进后的YOLOv7模型的平均精确度均值mAP提高了2.19%,说明本文算法提高了小目标和不完整塔基的识别精度,降低了漏检和误检的情况,保证了网络模型的整体性能。

5.3.4 对比实验

为验证改进后的YOLOv7检测算法的有效性,选择与目前主流的目标检测算法:YOLOv5^[27]、YOLOv8^[28]、Faster R-CNN进行实验对比。在保证表2中相关参数相同的情况下,在自建的塔基数据集上进行对比实验,其结果见表6所示。本文从参数量(Parameters)、计算量(FLOPs)、每秒处理的图像帧数(FPS)、和平均精确度均值(mAP)四个评价指标来进行不同模型的性能对比。对比表6中的实验结果,本文算法的mAP达到了99.93%,分别比YOLOv5、原YOLOv7、YOLOv8和Faster R-CNN高出4.04%、2.19%、1.14%和3.03%。对比FPS的值发现,目标检测的速度高于Faster R-CNN,相较于原YOLOv7、YOLOv5和YOLOv8较低,但也满足了塔基目标检测的实际需求。本文算法的参数量和计算量没有达到最好,后续可以进行模型剪枝来降低使用到的参数量和计算量。综合4个评价指标的表现,证实了本文算法的两个改进点都是有效可行的;在数据集上的检测效果,也说明本文算法在塔基目标检测的应用上具有一定的优势,具有良好的现实意义。

表6 算法对比试验

Tab.6 Algorithm comparison experiment

模型	参数量/M	计算量/G	FPS	mAP/%
YOLOv5	49.437	147.14	54.337	95.89
YOLOv7	34.791	103.2	39.759	97.74
YOLOv8	3.005	8.1	39.960	98.79
Faster R-CNN	119.743	374.153	19.392	96.90
本文算法	37.387	106.4	37.125	99.93

5.3.5 检测结果对比

为了对比原YOLOv7模型和改进后的YOLOv7检测模型的性能,选择两模型的损失曲线和P-R曲线进行性能分析。如图6所示,其中图a、b分别为两模型的损失曲线收敛图,横轴为训练过程数(Epoch),纵轴为损失值,曲线显示了模型在训练过程中的损失值随迭代次数的变化情况。随着训练的进行,模型通过梯度下降进行参数调整,逐渐减小与真实标签之间的差异,使得损失值下降。在训练20个Epoch后,两种算法均达到收敛,且本文改进后的YOLOv7模型收敛速度比原YOLOv7快。图c、d分别为两模型在IoU阈值设置为0.5时的P-R曲线图,横轴为召回率Recall,纵轴为精确度Precision,曲线反映了模型在不同精确度和召回率下的表现。对比P-R曲线可以看出本文算法的精确度和召回率均高于原YOLOv7,且图d中P-R曲线在精确度和召回率较高的位置均表现良好,表明该模型对预测结果的准确度较高且该模型对真实正例的识别能力较强。

显示原图|下载原图ZIP|生成PPT

图6 Loss曲线、P-R曲线

Fig.6 Loss curve and P-R curve

为了看到更为直观的对比效果,本文选取不同背景信息的图像进行预测,包括但不限于山地、耕地、丘陵、梯田和平原等,原YOLOv7和改进后的YOLOv7检测算法在部分所选图像上的检测结果如图7所示。第一行图a1~a4为原YOLOv7的检测结果图像,第二行图b1~b4为本文算法的检测结果图像,通过对比可以看出,对于a1这种塔基底不完整,a2这种塔基底与背景对比不明显的情况,原YOLOv7均出现了漏检的情况;对于a3和a4这种塔顶形似塔基底,原YOLOv7出现了误检的情况。查看第二行的图像可知,改进后的模型能够在塔基底不完整,背景嘈杂和塔顶干扰的场景下避免漏检和误检,能够准确地进行塔基底目标检测。另外,对比检测结果也可知本文算法预测的置信度分数通常高于原始YOLOv7,特别是对于塔基显示不完全或者塔基尺寸较小的目标,改进后的YOLOv7算法的检测效果也更好,这表明改进后的网络模型整体性能更好。

显示原图|下载原图ZIP|生成PPT

图7 原YOLOv7和本文算法塔基检测对比图

注:网络版为彩图。

Fig.7 Comparison between the original YOLOv7 and our algorithm for tower base detection

6 结语

本文通过在原始YOLOv7的Backbone层中加入CBAM注意力机制,并引入WIoU v3代替原坐标损失函数CIoU,来对YOLOv7网络模型进行改进。与目前主流的目标检测算法在自建的输电塔塔基数据集上进行对比实验,实验结果表明在同等实验环境下本文算法拥有更高的检测精度,证实了改进后的YOLOv7目标检测算法在输电塔塔基检测中的可行性和有效性。然而,不可否认的是,部分主流算法凭借较快的训练和推理速度、较低的内存占用,使其在移动设备或者资源受限的设备中优势明显。后续我们会在保证检测精度的前提下,对本文改进后的YOLOv7检测算法进行剪枝实验,来降低模型的参数量和计算量,以达到更好的性能。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	国家能源局发布2022年全国电力工业统计数据[EB/OL].[2023-01-18]. http://www.nea.gov.cn/2023-01/18/c_1310691509.htm. National energy administration releases 2022 national electric power industry statistical dataa[EB/OL].[2023-01-18]. http://www.nea.gov.cn/2023-01/18/c_1310691509.htm.

[2]	TILAWAT J, THEERA-UMPON N, AUEPHANWIRIYAKUL S. Automatic detection of electricity pylons in aerial video sequences[C]// 2010 International Conference on Electronics and Information Engineering.Kyoto:IEEE, 2010: V1-342-V1-346.

[3]	LI Z R, LIU Y E, HAYWARD R, et al. Knowledge-based power line detection for UAV surveillance and inspection systems[C]// 2008 23rd International Conference Image and Vision Computing.Christchurch:IEEE, 2008:1-6.

[4]

何思远, 蔺蘭, 杨大为, 等. 基于无人机的输电塔检测方法研究[C]// 第十届全国信息获取与处理学术会议论文集. 沈阳: 中国仪器仪表学会, 2012:270-275.

S Y

, LIN

, YANG

D W

, et al. Research on transmission tower detection method based on drones[C]// Proceedings of the 10th National Academic Conference on Information Acquisition and Processing. Shenyang: China Instrument and Control Society, 2012: 270-275.

[5]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: ACM, 2014:580-587.

[6]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[7]	WANG T, WEI R, WANG L, et al. Detection of transmission towers and insulators in remote sensing images with deep learning[C]// 2021 China Automation Congress (CAC), Beijing: CAC, 2021:3298-3303.

[8]	曹志勇, 丰佳, 毛文利, 等. 基于特征融合Faster R-CNN的电力塔基目标检测[J]. 浙江电力, 2021, 40(11): 72-77. CAO Z Y, FENG J, MAO W L, et al. Power tower base target detection based on feature fusion faster R-CNN[J]. Zhejiang Power, 2021, 40(11): 72-77.

[9]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once:unified,real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016:779-788.

[10]	REDMON J, FARHADI A. YOLO9000:better,faster,stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE, 2017:6517-6525.

[11]	FARHADI A, REDMON J.Yolov3: an incremental improvement[C]// Computer Vision and Pattern Recognition(CVPR).Berlin:Springer, 2018, 1804: 1-6.

[12]	宋成根, 张正鹏, 赵瑞山, 等. 高分辨率遥感影像输电杆塔智能检测方法[J]. 遥感信息, 2022, 37(3): 65-71. SONG C G, ZHANG Z P, ZHAO R S, et al. Intelligent detection method for transmission towers using high-resolution remote sensing images[J]. Remote Sensing Information, 2022, 37(3): 65-71.

[13]	MO Y F, XIE R B, PAN Q S, et al. Automatic power transmission towers detection based on the deep learning algorithm[C]// 2021 2nd International Conference on Computer Engineering and Intelligent Control (ICCEIC).Chongqing:IEEE, 2021:11-15.

[14]	孙乐杨, 凌振宝, 王永志. 基于改进的YOLOv5识别遥感影像中输电塔的方法[J]. 实验技术与管理, 2022, 39(4): 19-24. SUN L Y, LING Z B, WANG Y Z. A method for identifying transmission towers in remote sensing images based on improved YOLOv5[J]. Experimental Technology and Management, 2022, 39(4): 19-24.

[15]	WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver:IEEE, 2023:7464-7475.

[16]	WOO S, PARK J, LEE J Y, et al. CBAM:convolutional block attention module[C]// European Conference on Computer Vision. Cham:Springer, 2018:3-19.

[17]	TONG Z J, CHEN Y H, XU Z W, et al. Wise-IoU:Bounding box regression loss with dynamic focusing mechanism[EB/OL].[2023-08-25]. http://arxiv.org/abs/2301.10051.

[18]	ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss:faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000.

[19]	WANG H, YANG G D, LI E, et al. High-voltage power transmission tower detection based on faster R-CNN and YOLO-V3[C]// 2019 Chinese Control Conference (CCC).Guangzhou:IEEE, 2019:8750-8755.

[20]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018:7132-7141.

[21]	WANG Q L, WU B G, ZHU P F, et al. ECA-net:efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE, 2020:11531-11539.

[22]	LIU Y, SHAO Z, HOFFMANN N. Global attention mechanism: retain information to enhance channel-spatial interactions[EB/OL]. [2023-08-25]. https://doi.org/10.48550/arXiv.2112.05561.

[23]	YANG L, ZHANG R Y, LI L, et al. Simam: a simple, parameter-free attention module for convolutional neural networks[C]// International Conference on Machine Learning, Los Angeles: IMLS 2021: 11863-11874.

[24]	ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506:146-157.

[25]	GEVORGYAN Z. SIoU loss:more powerful learning for bounding box regression[EB/OL].[2023-08-25]. http://arxiv.org/abs/2205.12740.

[26]	HE J B, ERFANI S, MA X J, et al. Alpha-IoU:a family of power intersection over union losses for bounding box regression[EB/OL].[2023-08-25]. http://arxiv.org/abs/2110.13675.

[27]	GLENN J. Ultralytics YOLOv5[EB/OL]. [2023-08-25]. https://github.com/ultralytics/yolov5.

[28]	GLENN J, AYUSH C, JING Q. Ultralytics YOLOv8[EB/OL]. [2023-08-25]. https://github.com/ultralytics/ultralytic.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 相关工作

2 数据集

2.1 数据来源

表1 无人机采集数据相关参数

图1 数据集部分数据展示

2.2 数据预处理

2.3 数据标注

图2 数据标注示例

3 YOLOv7算法

图3 YOLOv7网络结构

4 YOLOv7检测算法的改进

4.1 CBAM

图4 CBAM结构图

4.2 损失函数的改进

4.3 改进后的YOLOv7检测算法

图5 改进的YOLOv7网络结构

5 实验与结果分析

5.1 实验环境设置

表2 训练环境及参数设置

5.2 评价指标

5.3 实验结果及分析

5.3.1 CBAM有效性验证

表3 注意力机制实验对比结果

5.3.2 WIoU v3有效性验证

表4 损失函数实验对比结果

5.3.3 消融实验

表5 消融实验

5.3.4 对比实验

表6 算法对比试验

5.3.5 检测结果对比

图6 Loss曲线、P-R曲线

图7 原YOLOv7和本文算法塔基检测对比图

6 结语

参考文献