间谍卫星的基础?YOLT——利用卷积神经网络对卫星影像进行多尺度目标检测(Part I)

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译。

以下为译文: 

利用卷积神经网络,对于卫星影像中多尺度目标检测而言,你只需要看两次(Part I

在大片物体中检测小物体一直是卫星图像分析感兴趣的主要点之一。早期的工作是利用本地滑动窗和HOG特征描述确定船的位置,但存在的缺点是高度不均匀背景下分辨不清晰。为了解决这一问题,实现了一种基于“你只要看两眼”的物体检测流水线,该方法极大的提高了背景区分,并能够在不同尺度和多个传感器上快速检测出物体。

卫星图像目标检测概述

卫星图像库与ImageNet数据库不一样,存在四个问题:卫星图像的对象往往是非常小的并围绕成一个圆、输入图像巨大、训练数据相对缺乏;积极的一面是物体的物理和像素规模是实现已知的,观察角度也是低变化的。

 

图1. 《纽约时报》截图显示俄罗斯设计的武器实物模型愚弄遥感仪器。

HOG船检测挑战

HOG+滑动窗物体检测方法在前期工作中取得瞩目成果,为了探索该方法的限制,将其应用于场景不太均匀的背景。

 

图2.HOG+滑动窗应用于不同传感器的结果。假阴性显示是红色,手工标记显示是黄色,误报显示是蓝色,真阳性显示是绿色

使用深度学习进行物体检测

在卫星图像上采用YOLO框架去完成目标检测,该框架使用了单一的卷积层(CNN)去预测类别和边界。这种快速方法结合获取背景信息的能力使得其应用在卫星图像中是引人注目的。

CNN与滑动窗结合的方法可以取得客观的效果,但是难以计算。另外一个缺点是,滑动窗只可以看到图像的一小部分,从而丢弃有用的背景信息。该YOLO框架解决了背景差异的问题,并扩展成大的数据集。

 

图3. 说明YOLO框架的缺省

该框架确实是有些局限性,但在文献中封装了三个问题,具体问题可以参看文献和原文。

针对这些问题,提出了YOLT框架,解决了上述的三个问题,分别使用滑动窗上采样以寻找小的物体、在多尺度上运行探测器;增加训练数据;定义新的网络架构使得最后的卷积层有更紧密的网格。

YOLT框架的输出的后处理结合了各种图形芯片,这些修改使得每秒44帧的速度降低为每秒18帧。如果寻找密集物体不是必须的,最大图形尺寸应该会增加2-4倍。

YOLT训练数据

训练数据收集大图像中的小块,每个对象的标签是由边界框和类标识符组成。

主要集中以下四类:

  •  开放水域的船
  •  在港湾的船
  •  飞机
  •  飞机场

图4. YOLT训练数据

 

图5. 训练图像在色相和饱和度上旋转和缩放

YOLT目标检测结果

对评估测试图像使用相同的评价标准;对于海上区域的评估,关注相同的区域。在硬件上仿真后,与之前方法的结果相比,HOG+滑动窗是用来训练分类船和船的航向,而YOLT是用来训练产生船和飞机的位置信息。具体性能分析请见原文。

 

图6. YOLT在AOI1的性能

 

图7. YOLT在AOI2的性能

图8. YOLT在AOI3的性能 

图9. YOLT在AOI4的性能

  

图10. YOLT在美济礁使用如图2所示的相同卫星测试的结果

 

图11. YOLT应用到苏伊士运河的南入口的卫星图像

 

图12. YOLT检测应用到DigitalGlobe图像中,上图拍摄于希斯罗机场

结论

这篇文章中,展示了一个经典机器学习技术应用于卫星图像目标检测的局限性;为了解决这个局限性,实现了一个完全卷积神经网络分类(YOLT)去快速获得卫星图像中的船只和飞机的位置,在稀疏场景的分类性能证明比HOG+滑动窗方法更好。

在Part II部分,将探讨在完全不同尺度上检测目标,比如在船只、飞机和跑道上的挑战。

文章原标题《You Only Look Twice — Multi-Scale Object Detection in Satellite Imagery With Convolutional Neural Networks (Part I)》,作者:Adam Van Etten

文章为简译,更为详细的内容,请查看原文

                                             翻译:海棠

时间: 2025-01-20 12:44:01

间谍卫星的基础?YOLT——利用卷积神经网络对卫星影像进行多尺度目标检测(Part I)的相关文章

干货|语音识别框架最新进展——深度全序列卷积神经网络登场

导读:目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort Term Memory),但是,这一系统存在训练复杂度高.解码时延高的问题,尤其在工业界的实时识别系统中很难应用.科大讯飞在今年提出了一种全新的语音识别框架--深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork),更适合工业应用.本文是对科大讯飞使用DFCNN应用于语音转写技术的详细解读,其外还包含了语音转写中口语化和篇章级语言模型处理.噪声和远场识别和

卷积神经网络(CNN)在无人驾驶中的应用

无人驾驶的感知部分作为计算机视觉的领域范围,也不可避免地成为CNN发挥作用的舞台.本文是无人驾驶技术系列的第八篇,深入介绍CNN(卷积神经网络)在无人驾驶3D感知与物体检测中的应用. CNN简介 卷积神经网络(Convolutional Neural Network,CNN)是一种适合使用在连续值输入信号上的深度神经网络,比如声音.图像和视频.它的历史可以回溯到1968年,Hubel和Wiesel在动物视觉皮层细胞中发现的对输入图案的方向选择性和平移不变性,这个工作为他们赢得了诺贝尔奖.时间推进

看了这篇文章,了解深度卷积神经网络在目标检测中的进展

近些年来,深度卷积神经网络(DCNN)在图像分类和识别上取得了很显著的提高.回顾从 2014 到 2016 这两年多的时间,先后涌现出了 R-CNN,Fast R-CNN, Faster R-CNN, ION, HyperNet, SDP-CRC, YOLO,G-CNN, SSD 等越来越快速和准确的目标检测方法. 1. 基于 Region Proposal 的方法 该类方法的基本思想是:先得到候选区域再对候选区域进行分类和边框回归.  1.1 R-CNN[1] R-CNN 是较早地将 DCNN

零基础入门深度学习(三):卷积神经网络

投稿:Intelligent Software Development 团队介绍:团队成员来自一线互联网公司,工作在架构设计与优化.工程方法研究与实践的最前线,曾参与搜索.互联网广告.共有云/私有云等大型产品的设计.开发和技术优化工作.目前主要专注在机器学习.微服务架构设计.虚拟化/容器化.持续交付/DevOps等领域,希望通过先进技术和工程方法最大化提升软件和服务的竞争力.   在前面的文章中,我们介绍了全连接神经网络,以及它的训练和使用.我们用它来识别了手写数字,然而,这种结构的网络对于图像

零基础入门深度学习(4) - 卷积神经网络

在前面的文章中,我们介绍了全连接神经网络,以及它的训练和使用.我们用它来识别了手写数字,然而,这种结构的网络对于图像识别任务来说并不是很合适.本文将要介绍一种更适合图像.语音识别任务的神经网络结构--卷积神经网络(Convolutional Neural Network, CNN).说卷积神经网络是最重要的一种神经网络也不为过,它在最近几年大放异彩,几乎所有图像.语音识别领域的重要突破都是卷积神经网络取得的,比如谷歌的GoogleNet.微软的ResNet等,打败李世石的AlphaGo也用到了这

图像处理一定要用卷积神经网络?这里有一个另辟蹊径的方法

近年来,卷积神经网络(CNN)以其局部权值共享的特殊结构在语音识别和图像处理等方面得到了快速发展,特别是大型图像处理方面,更是表现出色,逐渐成为了行业内一个重要的技术选择. 不过,好用并不代表万能.这里雷锋网从一个卫星图像分析的具体实例出发,介绍了CNN建模和本地拉普拉斯滤波这两种分析技术的效果对比,最终我们发现,本地拉普拉斯滤波的效果反而更好.   卷积神经网络 为了从卫星图像中分析和评估一项自然灾害造成的损失,首先需要得到相关地理区域实时的高分辨率的卫星图像,这是进行后续所有分析的数据基础.

使用专用硬件加速深度卷积神经网络

英文论文链接:http://research.microsoft.com/apps/pubs/default.aspx?id=240715 翻译:卜居 转载请注明出处:http://blog.csdn.net/kkk584520/article/details/47711755 [摘要] 最近在多层卷积神经网络的突破导致了识别任务(如大量图片分类和自动语音识别)准确率的大幅提升[1].这些多层神经网络很大,很复杂,需要大量计算资源来训练和评估[2].然而这些需求发生在目前这样一个尴尬的时刻,商业

想改进你的卷积神经网络?看看这14种设计模式!

更多深度文章,请关注云计算频道: https://yq.aliyun.com/cloud 自2011年以来,深度卷积神经网络(CNN)在图像分类的工作中的表现就明显优于人类,它们已经成为在计算机视觉领域的一种标准,如图像分割,对象检测,场景标记,跟踪,文本检测等. 但,想要熟练掌握训练神经网络的能力并不是那么容易.与先前的机器学习思维一样,细节决定成败.但是,训练神经网络有更多的细节需要处理.你的数据和硬件有什么限制?你应该是从何种网络开始?你应该建立多少与卷积层相对的密集层?你的激励函数怎样去

改进卷积神经网络,你需要这14种设计模式

深度学习领域近来已经发展出大量的新架构,而如何选择使用这些新架构提升卷积神经网络的性能就显得越发重要了.机器之心之前报道过提交 ICLR 2017 的论文: 解析深度卷积神经网络的14种设计模式 也正是关注于此.而本文在描述14种设计模式之余更加注重于阐述构建和训练卷积网络的小技巧. 自从 2011 年深度卷积神经网络(CNN)在图像分类任务中优于人类开始,它们就成为了计算机视觉任务中的行业标准,这些任务包括图像分割.目标检测.场景标记.跟踪以及文本检测等等. 然而,训练神经网络的技巧并不容易掌