朴实无华的数据增强然后训练一下应用在电网异物检测领域,好像有自己的数据集就能发文了-程序员宅基地

技术标签: 电网异物检测  

RCNN-based foreign object detection for securing power transmission lines (RCNN4SPTL)

Abstract

  • 本文提出了一种新的深度学习网络——RCNN4SPTL (RCNN -based Foreign Object Detection for Securing Power Transmission lines),该网络适用于检测输电线路上的异物。RCNN4SPTL使用RPN (Region Proposal Network)来生成区域提议的纵横比,以匹配外来物体的大小。RCNN4SPTL使用端到端训练来提高性能。实验结果表明,与原来的Faster RCNN相比,RCNN4SPTL显著提高了检测速度和识别精度

  • 论文地址:RCNN-based foreign object detection for securing power transmission lines (RCNN4SPTL) - ScienceDirect

Introduction

  • 维护输电线路的安全至关重要。在输电线路上悬挂的风筝、气球、塑料薄膜等异物会损害高压电力的分配,对输电线路下的行人和车辆构成威胁。因此,为了及时清除异物,检测异物是至关重要的。

  • 目前,检测异物的方法主要有两种:人工线路检测和无人机检测。由于输电线路通常要经过山川、公路、桥梁等复杂的地理环境,人工巡检存在很大的安全隐患。人工检测也存在效率低、效果差的问题。无人机巡检采用摄像机对高压输电线路进行巡检。尽管基于无人机的检测不受地理环境的影响,但仍然需要大量的人力来确定无人机返回的图像和视频上是否有异物

  • 已有图像形态学检测异物的研究,如图像中传输线的提取方法。基于图像形态学的检测的一般过程如下。首先,采用高斯滤波器、中值滤波器或双边滤波器去噪;然后应用Otsu(最大类间方差)对图像的背景和前景进行分割;最后利用霍夫变换提取输电线路,识别异物。由于地理背景的差异和各种天气条件的影响,很难对所有图像选择合适的灰度阈值。

  • 近年来,深度学习技术发展迅速,将目标检测和分类技术提升到一个新的水平。该神经网络对几何变换和光照具有较强的适应性。它可以根据输入的图像自动生成特征描述。Ren等人提出了RCNN,它是深度学习中基于区域提议的目标检测的先驱。对于生成区域建议的算法,有:Li等提出的选择性搜索。出现了一系列的RCNN变体:SPP Net、Fast RCNN和Faster RCNN。RCNN的速度和性能都比其他网络好。然而,在现阶段,faster RCNN被用于检测行人、水果等常见物体,没有人试图将其应用于检测外来物体。由于这类物体没有固定的形状,Fast RCNN很难提取有用的特征,增加了训练和识别的难度

  • 本文提出了一种基于Faster RCNN的新型神经网络模型RCNN4SPTL,用于输电线路上的异物识别。RCNN4SPTL模型可以自动提取输电线路上异物的各种相关特征,进而进行异物检测。与其他方法相比,该模型大大减少了人为干扰,提高了工作效率。

RCNN4SPTL design and implementation

The RCNN4SPTL model

  • 下图给出了RCNN4SPTL模型的整体视图。它由三部分组成。第一部分是共享卷积神经网络部分(SPTL-Net),提取图像特征生成图像特征映射;第二部分是区域提议生成网络(RPN)。它的输入是图像特征映射,输出是不同大小和比例的候选区域。最后是分类回归网络。它的输入是特征映射和目标区域建议。第三部分生成区域建议对应的固定维的特征向量,然后进行图像分类和定位。最后,RCNN4SPTL给出了目标的类别和位置。

    • 在这里插入图片描述

    • The RCNN4SPTL model

SPTL-Net

  • RCNN4SPTL采用SPTL-Net,使用更小的卷积核来提高特征提取的质量,在不影响检测性能的情况下减少神经元数量,提高训练和检测速度

  • SPTL-Net如下图所示。它有八层。前五层是卷积层,后三层是全连接层。第一个卷积层有96个大小为5 × 5 × 3的卷积核,以223 × 223 × 3过滤输入图像。卷积核的步长为两个像素。较小的卷积核有利于特征融合和精细特征提取。第二个卷积层有256个大小为5 x 5 x 96的卷积核,对第一层的池化结果进行卷积。第三个卷积层使用384个大小为3 x 3 x 256的卷积核进行相同的操作。第四层和第五层卷积层相互连接,它们之间没有池化层。第一个完全连接的层有4096个神经元。第二层完全连接层的神经元数量为1048个。

    • 在这里插入图片描述

    • SPTL-Net model

  • 卷积和池化操作分别使用公式(1)和(2)执行

    • o u t p u t s i z e = i m p u t s i z e − k e r n e l S i z e + 2 ∗ p a d d i n g s t r i d e + 1 o u t p u t s i z e = i n p u t s i z e − k e r n e l S i z e s t r i d e + 1 output_{size}=\frac{imput_{size}-kernelSize+2*padding}{stride}+1\\ output_{size}=\frac{input_{size}-kernelSize}{stride}+1 outputsize=strideimputsizekernelSize+2padding+1outputsize=strideinputsizekernelSize+1

    • 其中outputsize为输出图像的大小,inputsize为输入图像的大小,kernel size为卷积核的大小,pad为填充像素的大小,stride为步长。

Adjust the size and proportion of region proposals

  • RPN是一种卷积神经网络,它使用SPTL-Net生成的特征图作为输入,生成不同大小和纵横比的矩形区域建议。RPN首先使用一个3 × 3的滑动窗口在特征图上滑动;它将穿过窗口的地图上的每个位置投影到一个256维的特征向量上,然后将每个向量输入到接下来的两个完全连接的层中。带分类函数的全连接层产生2 x 9 = 18个分数,每个候选框对应两个分数,分别表示候选框中包含和不包含给定对象的可能性。带回归函数的全连通层产生4 x 9 = 36个校正参数。RPN使用这些参数对区域建议进行校正,每个候选区域对应四个校正参数。锚点(当前滑动窗口的中心)以原始图像为中心,产生具有三种尺度和三种纵横比的区域建议。RPN利用九个候选矩形区域来适应目标。三种尺寸分别为 12 8 2 、 25 6 2 、 51 2 2 128^2、256^2、512^2 128225625122,宽高比分别为1:1、1:2、2:1。

  • RPN为每个候选区域生成4个校正参数tx、ty、tw和th,并使用这4个参数对区域建议进行校正。式(3)~(6)为修正公式:

    • x = w a t x + x a , ( 3 ) y = h a t y + y a , ( 4 ) w = w a t w , ( 5 ) h = h a t h , ( 6 ) x=w_at_x+x_a,(3)\\ y=h_at_y+y_a,(4)\\ w=w_a^{t_w},(5)\\ h=h_a^{t_h},(6) x=watx+xa,(3)y=haty+ya,(4)w=watw,(5)h=hath,(6)

    • 其中,x、y为中心点的x、y坐标,w、h为校正后的候选区域的宽度、高度。Xa和ya表示候选区域中心点的横坐标和纵坐标,wa和ha表示校正前候选区域的宽度和高度。

  • RCNN4SPTL针对输电线路上异物的形状特征,调整区域建议的宽高比。因此RCNN4SPTL将1:1,1:2,2:1的纵横比改为1:1,2:1,3:1,因为在图像中,挂在传输线上的气球大多又细又长。RPN损失函数将候选框的分类分数与校正参数相结合。式(7)定义了损失函数。

    • L ( { p i } , { t i } ) = 1 N c l s ∑ i L c l s ( p i , p i ∗ ) + λ 1 N r e g ∑ i p i ∗ L r e g ( t i , t i ∗ ) L(\{p_i\},\{t_i\})=\frac{1}{N_{cls}}\sum_iL_{cls}(p_i,p_i^*) +\lambda\frac1{N_{reg}}\sum_ip^*_iL_{reg}(t_i,t_i^*) L({ pi},{ ti})=Ncls1iLcls(pi,pi)+λNreg1ipiLreg(ti,ti)

    • 其中I为区域建议的序列号, p i p_i pi为目标在第i个候选区域的预测置信度。 p i ∗ = 1 p^∗_i = 1 pi=1 表示第 i 个候选区域包含该对象, p i ∗ = 0 p^∗_i = 0 pi=0 表示第i个候选框不包含该对象。 t i t_i ti 是候选区域的预测校正参数, t i ∗ t ^*_ i ti 是对应于实区域的区域建议的校正参数。 N c l s N_{cls} Ncls N r e g N_{reg} Nreg 对公式(7)中的两个子项进行了规范化。用于控制两个子项的相对重要性。Lcls()为预测置信度的损失函数,如下式所示:

    • L c l s ( p i , p i ∗ ) = − l o g ( p i p i ∗ ) L_{cls}(p_i,p^*_i)=-log(p_ip^*_i) Lcls(pi,pi)=log(pipi)

    • Lreg()是修改后参数的损失函数:

    • L r e g ( t i , t i ∗ ) = ∑ i ∈ { x , y , w , h } s m o o t h L 1 ( t i − t i ∗ ) L_{reg}(t_i,t^*_i)=\sum_{i\in\{x,y,w,h\}}smooth_{L_1}(t_i-t^*_i) Lreg(ti,ti)=i{ x,y,w,h}smoothL1(titi)

    • 其中smoothL1()如式:

    • s m o o t h L 1 ( x ) = 0.5 x 2 , ∣ x ∣ ≤ 1 ;    ∣ x ∣ − 0.5 , ∣ x ∣ > 1 smooth_{L_1}(x)=0.5x^2,|x|\leq1;~~|x|-0.5,|x|>1 smoothL1(x)=0.5x2,x1;  x0.5,x>1

    • 计算 t x ∗ , t y ∗ , t w ∗ t^∗_x, t^∗_y, t^∗_w tx,ty,tw t h ∗ t^∗_h th 的公式分别为:

    • t x ∗ = x 8 − x a w a t y ∗ = y ∗ − y a h a t w ∗ = l o g ( w 8 w a ) t h ∗ = l o g ( h ∗ h a ) t^*_x=\frac{x^8-x_a}{w_a}\\ t^*_y=\frac{y^*-y_a}{h_a}\\ t^*_w=log(\frac{w^8}{w_a})\\ t^*_h=log(\frac{h^*}{h_a}) tx=wax8xaty=hayyatw=log(waw8)th=log(hah)

    • 其中x *和y *表示实区域中心点的横坐标和纵坐标,w *和h *表示实区域的宽度和高度。 x a , y a , w a , h a x_a, y_a, w_a, h_a xa,ya,wa,ha 分别表示候选区域对应的坐标。

End-to-end joint training

  • Fast RCNN采用交替训练。首先在ImageNet上对模型进行预训练,初始化共享卷积网络,然后训练RPN。接下来,在ImageNet上使用预训练模型初始化共享卷积网络,并训练分类回归网络。然后确定训练好的共享卷积网络和分类回归网络部分参数,开始训练RPN网络。最后,Faster RCNN使用前一步训练的参数初始化整个网络,共享卷积网络和RPNs参数保持不变,并训练分类回归网络

  • 我们可以看到,交替训练意味着特征共享实际上是一种伪共享,这降低了网络的性能。因此RCNN4SPTL采用端到端联合训练,将RPN和分类回归网络作为一个整体,同时进行训练。

  • 首先,利用ImageNet预训练模型初始化分类回归网络和共享卷积神经网络的前两层全连接层;RCNN4SPTL使用均值为0,标准差为0.01的高斯分布随机初始化其他层,并执行端到端微调。在本次训练中,RPN与分类回归网络共同训练共享卷积神经网络,使RCNN4SPTL能够同时学习所需的特征。这种训练可以提高性能,得到更好的模型。

Image Preprocessing

  • 训练集的规模影响模型的性能。训练集越大,深度学习模型的检测效果越好。因此我们需要增加训练样本的大小。RCNN4SPTL采用图像预处理步骤:图像翻转、缩放和旋转来扩展训练集。这项研究使用了左右翻转;将所有图像缩放到400*400像素。RCNN4SPTL分别逆时针旋转图像20度、100度和220度,使RCNN4SPTL不变性。下图显示了一些预处理图像的示例。下图 (a)为原始图像,下图 (b)为预处理图像,分别进行图像翻转翻转、20度旋转、缩放操作。

    • 在这里插入图片描述

    • 预处理图像

Evaluation

  • 为了评估我们方法的有效性,我们使用以下硬件进行模型训练:NVIDIA GeForce GTX 1080TI with Intel i7 @2.40GHz x 6(6核)和16GB RAM。

Dataset

  • 在这个实验中有5000个训练样本图像。其中,有2000部电影,1000个薄膜和2000个风筝。测试数据集有500个图像,包括200个薄膜、100个气球和200个风筝。示例数据集如下图所示。对训练集进行人工标记和处理。我们对RCNN4SPTL的超参数进行微调,然后将训练集输入到网络中进行有限次数的迭代训练。最后,我们利用测试集来测试训练模型的性能,并在下一节中展示结果。

    • 在这里插入图片描述

    • 数据集示例

Experimental results and analysis

  • 下表显示了测试结果的准确率和召回率。实验结果表明,RCNN4SPTL在检测速度、准确率和查全率方面具有较好的检测性能。

    • 在这里插入图片描述

    • 性能比较

  • 在检测传输线上的异物的情况下,RCNN4SPTL比原来的Faster RCNN更适合检测异物。下图显示了RCNN4SPTL和Faster RCNN在检测气球、风筝和电影方面的结果。测试图片均来自真实场景(怀疑)。

  • 下图 (a)列出了使用RCNN4SPTL的检测结果,下图 (b)给出了使用Faster RCNN的检测结果。结果表明,RCNN4SPTL识别外来物体具有较高的置信度。

    • 在这里插入图片描述

    • RCNN4SPTL和Faster RCNN的目标检测结果

Conclusion

  • 及时检测和清除输电线路上的异物具有重要意义。在本研究中,我们首先使用特定的图像增强技术:图像翻转、缩放和旋转来扩展数据集。然后,根据输电线路异物的形状特征,提出了RCNN4SPTL网络,该网络对共享卷积网络和区域大小比例建议进行了优化。最后,我们使用20000次迭代的端到端联合训练来训练RCNN4SPTL。实验结果表明,RCNN4SPTL比传统的Faster RCNN更适合于对传输线上异物的准确识别。该cnn4sptl具有更快的检测速度,更好的识别性能。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_43424450/article/details/132417226

智能推荐

FTP命令字和返回码_ftp 登录返回230-程序员宅基地

文章浏览阅读3.5k次,点赞2次,收藏13次。为了从FTP服务器下载文件,需要要实现一个简单的FTP客户端。FTP(文件传输协议) 是 TCP/IP 协议组中的应用层协议。FTP协议使用字符串格式命令字,每条命令都是一行字符串,以“\r\n”结尾。客户端发送格式是:命令+空格+参数+"\r\n"的格式服务器返回格式是以:状态码+空格+提示字符串+"\r\n"的格式,代码只要解析状态码就可以了。读写文件需要登陆服务器,特殊用..._ftp 登录返回230

centos7安装rabbitmq3.6.5_centos7 安装rabbitmq3.6.5-程序员宅基地

文章浏览阅读648次。前提:systemctl stop firewalld 关闭防火墙关闭selinux查看getenforce临时关闭setenforce 0永久关闭sed-i'/SELINUX/s/enforcing/disabled/'/etc/selinux/configselinux的三种模式enforcing:强制模式,SELinux 运作中,且已经正确的开始限制..._centos7 安装rabbitmq3.6.5

idea导入android工程,idea怎样导入Android studio 项目?-程序员宅基地

文章浏览阅读5.8k次。满意答案s55f2avsx2017.09.05采纳率:46%等级:12已帮助:5646人新版Android Studio/IntelliJ IDEA可以直接导入eclipse项目,不再推荐使用eclipse导出gradle的方式2启动Android Studio/IntelliJ IDEA,选择 import project3选择eclipse 项目4选择 create project f..._android studio 项目导入idea 看不懂安卓项目

浅谈AI大模型技术:概念、发展和应用_ai大模型应用开发-程序员宅基地

文章浏览阅读860次,点赞2次,收藏6次。AI大模型技术已经在自然语言处理、计算机视觉、多模态交互等领域取得了显著的进展和成果,同时也引发了一系列新的挑战和问题,如数据质量、计算效率、知识可解释性、安全可靠性等。城市运维涉及到多个方面,如交通管理、环境监测、公共安全、社会治理等,它们需要处理和分析大量的多模态数据,如图像、视频、语音、文本等,并根据不同的场景和需求,提供合适的决策和响应。知识搜索有多种形式,如语义搜索、对话搜索、图像搜索、视频搜索等,它们可以根据用户的输入和意图,从海量的数据源中检索出最相关的信息,并以友好的方式呈现给用户。_ai大模型应用开发

非常详细的阻抗测试基础知识_阻抗实部和虚部-程序员宅基地

文章浏览阅读8.2k次,点赞12次,收藏121次。为什么要测量阻抗呢?阻抗能代表什么?阻抗测量的注意事项... ...很多人可能会带着一系列的问题来阅读本文。不管是数字电路工程师还是射频工程师,都在关注各类器件的阻抗,本文非常值得一读。全文13000多字,认真读完大概需要2小时。一、阻抗测试基本概念阻抗定义:阻抗是元器件或电路对周期的交流信号的总的反作用。AC 交流测试信号 (幅度和频率)。包括实部和虚部。​图1 阻抗的定义阻抗是评测电路、元件以及制作元件材料的重要参数。那么什么是阻抗呢?让我们先来看一下阻抗的定义。首先阻抗是一个矢量。通常,阻抗是_阻抗实部和虚部

小学生python游戏编程arcade----基本知识1_arcade语言 like-程序员宅基地

文章浏览阅读955次。前面章节分享试用了pyzero,pygame但随着想增加更丰富的游戏内容,好多还要进行自己编写类,从今天开始解绍一个新的python游戏库arcade模块。通过此次的《连连看》游戏实现,让我对swing的相关知识有了进一步的了解,对java这门语言也有了比以前更深刻的认识。java的一些基本语法,比如数据类型、运算符、程序流程控制和数组等,理解更加透彻。java最核心的核心就是面向对象思想,对于这一个概念,终于悟到了一些。_arcade语言 like

随便推点

【增强版短视频去水印源码】去水印微信小程序+去水印软件源码_去水印机要增强版-程序员宅基地

文章浏览阅读1.1k次。源码简介与安装说明:2021增强版短视频去水印源码 去水印微信小程序源码网站 去水印软件源码安装环境(需要材料):备案域名–服务器安装宝塔-安装 Nginx 或者 Apachephp5.6 以上-安装 sg11 插件小程序已自带解析接口,支持全网主流短视频平台,搭建好了就能用注:接口是公益的,那么多人用解析慢是肯定的,前段和后端源码已经打包,上传服务器之后在配置文件修改数据库密码。然后输入自己的域名,进入后台,创建小程序,输入自己的小程序配置即可安装说明:上传源码,修改data/_去水印机要增强版

verilog进阶语法-触发器原语_fdre #(.init(1'b0) // initial value of register (1-程序员宅基地

文章浏览阅读557次。1. 触发器是FPGA存储数据的基本单元2. 触发器作为时序逻辑的基本元件,官方提供了丰富的配置方式,以适应各种可能的应用场景。_fdre #(.init(1'b0) // initial value of register (1'b0 or 1'b1) ) fdce_osc (

嵌入式面试/笔试C相关总结_嵌入式面试笔试c语言知识点-程序员宅基地

文章浏览阅读560次。本该是不同编译器结果不同,但是尝试了g++ msvc都是先计算c,再计算b,最后得到a+b+c是经过赋值以后的b和c参与计算而不是6。由上表可知,将q复制到p数组可以表示为:*p++=*q++,*优先级高,先取到对应q数组的值,然后两个++都是在后面,该行运算完后执行++。在电脑端编译完后会分为text data bss三种,其中text为可执行程序,data为初始化过的ro+rw变量,bss为未初始化或初始化为0变量。_嵌入式面试笔试c语言知识点

57 Things I've Learned Founding 3 Tech Companies_mature-程序员宅基地

文章浏览阅读2.3k次。57 Things I've Learned Founding 3 Tech CompaniesJason Goldberg, Betashop | Oct. 29, 2010, 1:29 PMI’ve been founding andhelping run techn_mature

一个脚本搞定文件合并去重,大数据处理,可以合并几个G以上的文件_python 超大文本合并-程序员宅基地

文章浏览阅读1.9k次。问题:先讲下需求,有若干个文本文件(txt或者csv文件等),每行代表一条数据,现在希望能合并成 1 个文本文件,且需要去除重复行。分析:一向奉行简单原则,如无必要,绝不复杂。如果数据量不大,那么如下两条命令就可以搞定合并:cat a.txt >> new.txtcat b.txt >> new.txt……去重:cat new...._python 超大文本合并

支付宝小程序iOS端过渡页DFLoadingPageRootController分析_类似支付宝页面过度加载页-程序员宅基地

文章浏览阅读489次。这个过渡页是第一次打开小程序展示的,点击某个小程序前把手机的开发者->network link conditioner->enable & very bad network 就会在停在此页。比如《支付宝运动》这个小程序先看这个类的.h可以看到它继承于DTViewController点击左上角返回的方法- (void)back;#import "DTViewController.h"#import "APBaseLoadingV..._类似支付宝页面过度加载页

推荐文章

热门文章

相关标签