2016年,由谷歌DeepMind开发的AlphaGo围棋程序依靠深度学习和强化学习的强大能力,在围棋人机大战中以3:1战胜了韩国顶级棋手李世乭。伴随着电子信息技术的高速发展以及各类摄像头的广泛应用,全球图像视频数据爆炸式增长,人类社会正在进入视觉信息的大数据时代。目前大多数机器视觉处理系统可以很好地采集、传输和存储图像视频,但是缺乏对其图像视频内容高效准确的分析、识别和挖掘方法。
深度学习方法(Deeplearning)作为传统神经网络的拓展,近年来在语音、图像、自然语言等的语义认知问题上取得巨大的进展,为解决视觉大数据的表示和理解问题提供了通用的框架。图像视频内容复杂,包含场景多样、物体种类繁多,非受控条件下,图像和视频的内容受光照、姿态、遮挡等影响变化大,图像视频数据量大,特征维度高,部分应用需实时处理,而深度学习方法的快速发展,为解决上述问题提供了有效的途径。
深度学习利用包含多个隐层的深层神经网络,解决需要高度抽象特征的人工智能任务,借鉴了人脑的多层(通常认为是8-10层)神经细胞处理结构,多层非线性结构使得深度神经网络备对抽象语义特征的抽取能力和对复杂任务的建模能力。传统神经网络受限于过拟合(overfitting)问题,很难训练出泛化能力强的多层网络模型。深度学习通过组合低层特征形成更加抽象的高层表示属性类别的特征,以发现数据的分布式特征表示。建立深度学习的一个动机在于模拟人脑的分析处理机制来解释数据,人脑皮质具有多层的结构,信息在人脑中逐层处理,逐步抽象。深度架构看做一种“因子分解”,即从复杂的数据中抽取出可复用的表达本质特性的特征。深度学习模型由于其多层非线性结构,具有强大的能力,特别适合大数据的学习(图2)。这是由于传统浅层模型由于能力有限,在训练数据量增大到一定程度时其能力往往饱和,无法充分利用大规模训练数据所包含的有效信息。与此对应,深度学习方法由于其强大的能力,可以较为充分的利用大规模数据,从中提取有效的特征。
机器视觉领域的深度学习方法
物体分类
在图像领域,Krizhevsky等利用多层卷积神经网络,在大规模图像分类ImageNetLSVRC-2012竞赛中(包含1千个类别,120万图像)取得了明显高于传统方法的结果,将Top5错误率由26%大幅降低至15%,该神经网络有7层,包含约65万个神经节点和6千万参数。目前卷积神经网络已经成为该领域的主流方法。在此基础上,研究人员提出了VGGNet、GoogLeNet、残差网络ResidualNet等更深层的网络,并提升了深度学习方法在大规模图像分类领域的性能。深度网络还能准确检测出图像物体的位置,也能预测例如人体部位手、头、足的位置和姿态。
人像分析
在人脸识别方面,深度神经网络在人脸识别领域公认困难的LFW数据库上超过了人眼识别的准确度。图4给出了在人脸识别领域取得优秀性能的DeepID网络结构,该网络根据人脸结构的特殊性,提出了使用局部共享卷积,提升了网络对人脸图像的分类能力。提出面向跨年龄人脸识别的隐因子卷积神经网络,该网络将隐因子学习引入深度网络,将深度网络中全连接层特征分解为身份和年龄两个部分(图5),为提升深度网络对年龄变化的鲁棒性提供了一条新途径,实验表明该网络在著名的LFW数据库上取得了99%的正确率,超过了人眼在这一数据库上的表现97%,并在Morph和CACD这两个重要的跨年龄数据库上取得了领先的识别率,分别为88.1%和98.5%,还首次提出面向深度网络的中心损失函数,增强深度特征学习中的聚类效果,实验表明该方法可以提升人脸识别深度网络的性能,在MegaFace百万级人像比对国际测试的FGNet任务中取得了良好的效果。
机器视觉深度学习.png
场景识别
场景识别与理解是计算机视觉的一个基本问题。传统的场景识别方法多依赖于SIFT、HOG、SURF等局部特征。近年来,卷积神经网络也被用于场景分类。早期的方法发现微调(Finetune)通过大规模物体数据库Imagenet训练的网络,在场景分类中也有较好的效果。但与物体分类相比,场景类别更加抽象同一个场景类别内图像的内容和布局可能包含复杂的变化。麻省理工学院的AI实验室推出PLACE大规模场景数据库,推动深度神经网络在大规模场景分类的应用,使得研究人员可以直接利用场景数据而无需借助Imagenet训练场景分类的深度模型。许多在物体分类中表现优异的网络结构如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在场景分类中取得了良好的效果。研究表明,Dropout和多尺度数据增强等策略有助于深度网络的训练,可以缓解网络过拟合问题;Relaybackpropagation等方法可以提升场景分类深度网络的性能。与传统手工设计的特征相比,深度神经网络学习的场景特征表达能力丰富,语义性更强,因此可以在识别任务中取得更好的效果。
行为识别
行为识别是计算机视觉领域的重要问题。近年来,研究人员逐步将深度神经网络引入视频的分析与理解中,使其成为行为识别研究中的一个新的研究方向。Karpathy等提出一个卷积神经网络(ConvolutionalNeuralNetwork,CNN),通过不同的时序融合策略,实现对视频中的行为识别。然而,此模型尽管利用海量数据(sports-1M)进行预训练,行为识别的精准性仍有待提高。
另一流行的方法是3DCNN,此类方法通过对标准2DCNN在时间轴上的扩展,实现对视频的时空建模。但是,巨大的训练复杂度需要海量数据的支撑或3D卷积核的分解。牛津大学提出一个双流CNN框架以避免3DCNN的训练问题。通过外形流(Appearancestream)与运动流(MotionStream)CNN的独立设计,此框架在标准数据库UCF101与HMDB51中实现了精准的行为识别。然而,运动流CNN的输入为叠加光流,这使得此框架只能捕捉住短时运动信息,而忽略视频长时运动信息的理解。为进一步改进此结构的识别精准性,作者团队提出轨迹池化的深度描述子(Trajectory-pooledDeepDescriptors),该方法为融合深度模型与传统轨迹特征提供了一种新机制,实验表明这种深度轨迹特征TDD较传统手工设计的特征和传统深度模型具有更强的表示能力和区分性,可明显提高视频分类的正确率。人们还开发了视频关键域挖掘的深度模型,以及时间分割神经网络,以提高此类框架的时空建模能力。另外,还开发了增强运动向量卷积神经网络EMV-CNN,利用运动向量替代需要大量运算的光流,提速20倍以上。递归神经网络(RecurrentNeuralNetwork,RNN),特别是长短时记忆模型(LongShort-TermMemory,LSTM)在各种序列建模任务中取得的成功,使得基于深度学习的行为识别方法逐步向序列建模方向发展。一种常见的训练方法是利用双流CNN提取的特征作为LSTM的输入进行序列模型的训练。
深度学习还在图像恢复和超分辨率、图像质量评价、语义分割与解析、图像内容文本生成、医学图像分析等许多任务中取得了较传统方法更好的结果,大大推动了相互领域技术和方法的发展。
本文由朗锐智科编辑整理(www.lrist.com),如有侵权请联系本站。