机器视觉领域的深度学习方法分析

2016年,由谷歌DeepMind开发的AlphaGo围棋程序依靠深度学习和强化学习的强大能力,在围棋人机大战中以3:1战胜了韩国顶级棋手李世乭。伴随着电子信息技术的高速发展以及各类摄像头的广泛应用,全球图像视频数据爆炸式增长,人类社会正在进入视觉信息的大数据时代。目前大多数机器视觉处理系统可以很好地采集、传输和存储图像视频,但是缺乏对其图像视频内容高效准确的分析、识别和挖掘方法。

深度学习方法(Deeplearning)作为传统神经网络的拓展,近年来在语音、图像、自然语言等的语义认知问题上取得巨大的进展,为解决视觉大数据的表示和理解问题提供了通用的框架。图像视频内容复杂,包含场景多样、物体种类繁多,非受控条件下,图像和视频的内容受光照、姿态、遮挡等影响变化大,图像视频数据量大,特征维度高,部分应用需实时处理,而深度学习方法的快速发展,为解决上述问题提供了有效的途径。

深度学习利用包含多个隐层的深层神经网络,解决需要高度抽象特征的人工智能任务,借鉴了人脑的多层(通常认为是8-10层)神经细胞处理结构,多层非线性结构使得深度神经网络备对抽象语义特征的抽取能力和对复杂任务的建模能力。传统神经网络受限于过拟合(overfitting)问题,很难训练出泛化能力强的多层网络模型。深度学习通过组合低层特征形成更加抽象的高层表示属性类别的特征,以发现数据的分布式特征表示。建立深度学习的一个动机在于模拟人脑的分析处理机制来解释数据,人脑皮质具有多层的结构,信息在人脑中逐层处理,逐步抽象。深度架构看做一种“因子分解”,即从复杂的数据中抽取出可复用的表达本质特性的特征。深度学习模型由于其多层非线性结构,具有强大的能力,特别适合大数据的学习(图2)。这是由于传统浅层模型由于能力有限,在训练数据量增大到一定程度时其能力往往饱和,无法充分利用大规模训练数据所包含的有效信息。与此对应,深度学习方法由于其强大的能力,可以较为充分的利用大规模数据,从中提取有效的特征。

机器视觉领域的深度学习方法

物体分类

在图像领域,Krizhevsky等利用多层卷积神经网络,在大规模图像分类ImageNetLSVRC-2012竞赛中(包含1千个类别,120万图像)取得了明显高于传统方法的结果,将Top5错误率由26%大幅降低至15%,该神经网络有7层,包含约65万个神经节点和6千万参数。目前卷积神经网络已经成为该领域的主流方法。在此基础上,研究人员提出了VGGNet、GoogLeNet、残差网络ResidualNet等更深层的网络,并提升了深度学习方法在大规模图像分类领域的性能。深度网络还能准确检测出图像物体的位置,也能预测例如人体部位手、头、足的位置和姿态。

人像分析

在人脸识别方面,深度神经网络在人脸识别领域公认困难的LFW数据库上超过了人眼识别的准确度。图4给出了在人脸识别领域取得优秀性能的DeepID网络结构,该网络根据人脸结构的特殊性,提出了使用局部共享卷积,提升了网络对人脸图像的分类能力。提出面向跨年龄人脸识别的隐因子卷积神经网络,该网络将隐因子学习引入深度网络,将深度网络中全连接层特征分解为身份和年龄两个部分(图5),为提升深度网络对年龄变化的鲁棒性提供了一条新途径,实验表明该网络在著名的LFW数据库上取得了99%的正确率,超过了人眼在这一数据库上的表现97%,并在Morph和CACD这两个重要的跨年龄数据库上取得了领先的识别率,分别为88.1%和98.5%,还首次提出面向深度网络的中心损失函数,增强深度特征学习中的聚类效果,实验表明该方法可以提升人脸识别深度网络的性能,在MegaFace百万级人像比对国际测试的FGNet任务中取得了良好的效果。

机器视觉深度学习.png

场景识别

场景识别与理解是计算机视觉的一个基本问题。传统的场景识别方法多依赖于SIFT、HOG、SURF等局部特征。近年来,卷积神经网络也被用于场景分类。早期的方法发现微调(Finetune)通过大规模物体数据库Imagenet训练的网络,在场景分类中也有较好的效果。但与物体分类相比,场景类别更加抽象同一个场景类别内图像的内容和布局可能包含复杂的变化。麻省理工学院的AI实验室推出PLACE大规模场景数据库,推动深度神经网络在大规模场景分类的应用,使得研究人员可以直接利用场景数据而无需借助Imagenet训练场景分类的深度模型。许多在物体分类中表现优异的网络结构如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在场景分类中取得了良好的效果。研究表明,Dropout和多尺度数据增强等策略有助于深度网络的训练,可以缓解网络过拟合问题;Relaybackpropagation等方法可以提升场景分类深度网络的性能。与传统手工设计的特征相比,深度神经网络学习的场景特征表达能力丰富,语义性更强,因此可以在识别任务中取得更好的效果。

行为识别

行为识别是计算机视觉领域的重要问题。近年来,研究人员逐步将深度神经网络引入视频的分析与理解中,使其成为行为识别研究中的一个新的研究方向。Karpathy等提出一个卷积神经网络(ConvolutionalNeuralNetwork,CNN),通过不同的时序融合策略,实现对视频中的行为识别。然而,此模型尽管利用海量数据(sports-1M)进行预训练,行为识别的精准性仍有待提高。

另一流行的方法是3DCNN,此类方法通过对标准2DCNN在时间轴上的扩展,实现对视频的时空建模。但是,巨大的训练复杂度需要海量数据的支撑或3D卷积核的分解。牛津大学提出一个双流CNN框架以避免3DCNN的训练问题。通过外形流(Appearancestream)与运动流(MotionStream)CNN的独立设计,此框架在标准数据库UCF101与HMDB51中实现了精准的行为识别。然而,运动流CNN的输入为叠加光流,这使得此框架只能捕捉住短时运动信息,而忽略视频长时运动信息的理解。为进一步改进此结构的识别精准性,作者团队提出轨迹池化的深度描述子(Trajectory-pooledDeepDescriptors),该方法为融合深度模型与传统轨迹特征提供了一种新机制,实验表明这种深度轨迹特征TDD较传统手工设计的特征和传统深度模型具有更强的表示能力和区分性,可明显提高视频分类的正确率。人们还开发了视频关键域挖掘的深度模型,以及时间分割神经网络,以提高此类框架的时空建模能力。另外,还开发了增强运动向量卷积神经网络EMV-CNN,利用运动向量替代需要大量运算的光流,提速20倍以上。递归神经网络(RecurrentNeuralNetwork,RNN),特别是长短时记忆模型(LongShort-TermMemory,LSTM)在各种序列建模任务中取得的成功,使得基于深度学习的行为识别方法逐步向序列建模方向发展。一种常见的训练方法是利用双流CNN提取的特征作为LSTM的输入进行序列模型的训练。

深度学习还在图像恢复和超分辨率、图像质量评价、语义分割与解析、图像内容文本生成、医学图像分析等许多任务中取得了较传统方法更好的结果,大大推动了相互领域技术和方法的发展。

本文由朗锐智科编辑整理(www.lrist.com),如有侵权请联系本站。

时间: 2024-11-03 22:18:29

机器视觉领域的深度学习方法分析的相关文章

深度学习方法在机器视觉领域的发展

随着各个行业信息化程度的普及,任何行业所积累的数据会越来越多,但当真正面对海量数据时,各行业才意识到数据处理能力远远不够.目前大多数机器视觉处理系统可以很好地采集.传输和存储图像视频,但是缺乏对其图像视频内容高效准确的分析.识别和挖掘方法.有了深度学习,机器学习才有了许多实际的应用,它还拓展了AI的整体范围. 深度学习将任务分拆,使得各种类型的机器辅助变成可能. 深度学习.jpg 目前,深度学习已经在人工智能的多个应用领域如图像分类.语音识别.自然语言理解等取得了突破性的进展.深度学习由于其优异

超实用总结:AI实践者需要用到的10个深度学习方法

在过去十年里,大众对机器学习的兴趣与日俱增.几乎每天都可以在计算机科学程序.行业会议和华尔街日报上看到机器学习的身影.在所有关于机器学习的讨论中,很多都将"机器学习的作用"和"人类希望机器学习能够做什么"这两个观念混为一谈.从根本上说,机器学习是使用算法从原始数据中提取信息,并用某种模型进行表示,然后对于一些我们尚未建模的数据,使用模型来进行推断. 神经网络是机器学习模型的一种,而且已经存在了至少50年了.神经网络的基本单元是节点,源于哺乳动物大脑中的生物神经元.神

【干货】AI 实践者需要掌握的10大深度学习方法:反向传播、迁移学习、梯度下降……

过去10年,人们对机器学习的兴趣激增.几乎每天,你都可以在各种各样的计算机科学课程.行业会议.华尔街日报等等看到有关机器学习的讨论.在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事情混为一谈.从根本上讲,机器学习是使用算法从原始数据中提取信息,并在某种类型的模型中表示这些信息.我们使用这个模型来推断还没有建模的其他数据. 神经网络是机器学习的一种模型,它们至少有50年历史了.神经网络的基本单元是节点(node),基本上是受哺乳动物大脑中的生物神经元启发.神经元之间的

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

线上分享干货 | Deep-ReID: 关于行人重识别的深度学习方法

行人重识别是计算机视觉领域一个偏应用的话题,主要涉及智能安防/智能监控.本期我们邀请到了发表了来自悉尼科技大学博士生,近期发表ICCV2017论文的郑哲东来为我们分享行人重识别的相关内容. 分享背景 行人重识别是计算机视觉领域一个偏应用的问题,主要涉及智能安防/智能监控,可以应用于大型公共场所,如主题公园/机场/大学校园 来寻找指定行人.嘉宾将主要介绍深度学习相关的行人重识别方法. 分享嘉宾 郑哲东,悉尼科技大学博士生,研究方向为 图像检索和行人重识别.近期 ICCV 2017录用的论文<Unl

机器视觉领域国产日益崛起 定制化成重要方向

近几十年来,我国机器视觉领域快速发展,视觉系统因其非接触.速度快.精度高.现场抗干扰能力强等突出优点,使机器视觉技术在农业.工业.医学等领域得到了广泛应用.长期以来,机器视觉原配件和软件算法被这些国外巨头企业垄断,我国主要依靠进口国外整套系统,价格昂贵.通过在某个细分市场推出定制化的系统产品,为细分领域客户解决需求,成为我国机器视觉企业发展的重要方向. 3D机器视觉系统.jpg 一个典型的机器视觉系统包括光源.镜头.高速相机.图像采集卡和视觉处理器5大部分.国外对机器视觉部件产品和软件的研发已经

江辉老师分享“自然语言处理的通用深度学习方法”

6月5号,由阿里巴巴iDST邀请到了江辉老师,在北京阿里巴巴绿地中心阿里同学们做了一场A New General Deep Learning Approach for Natural Language Processing的讲座. 分享概要 如今在NLP领域各种CNN,RNN及其变种网络层出不穷,但是它们在复杂度,模型训练等方面都有不少问题.在这样的现状下,能否有一种更简单的机制代替这样的复杂网络,同时又取得与其相当甚至更好的效果,这成为了很多人的诉求. 江辉老师直接切入了NLP的痛点之一--变

智能语音质检系统如何做到深度跟踪分析客户

近年来,米领通信移动互联和大数据.智能化技术应用遍及各行各业,各种关于大数据.智能化应用的案例不绝于耳,"移动互联网"."大数据"."人工智能"成为最热的词汇,正大刀阔斧地改变着社会各行各业的商业模式.改变着人们的生活.插上移动互联网.大数据和各种智能化应用翅膀的呼叫中心也早已不再局限于传统的运营手段,而是会充分利用社交红利.多媒体渠道来增加用户接触和改善沟通,利用大数据.云计算.智能化应用来有效布局管理,比如全媒体客服实现的智能机器人通过抓取客

深度挖掘分析网站原创内容

如今的SEO是一个原创的时代,一个网站原创的内容越多,那么对SEO来说就越有利.首先大家应该清楚什么叫原创?原创从字面上理解顾名思义就是自己创作,其中这包含俩个因素:1.你网站的文章被搜索引擎收录的最早 2.搜索引擎内没有一样或者类似的文章,下面首先来分析下搜索引擎是怎么认定原创文章的归属问题. 当站长朋友们写完一些文章时,如果把自己网站的网址加进去,随后这篇文章被其他网站转载,这时候搜索引擎就会通过对文章的链接进行分析,从而判断出这篇文章是出自你的网站.当然,一个网站不可能全部都是原创文章,毕