深度学习助力实现智能行为分析和事件识别

行为识别是指通过分析视频、深度传感器等数据,利用特定的算法,对行人的行为进行识别、分析的技术。这项技术被广泛应用在视频分类、人机交互、安防监控等领域。行为识别包含两个研究方向:个体行为识别与群体行为(事件)识别。近年来,深度摄像技术的发展使得人体运动的深度图像序列变得容易获取,结合高精度的骨架估计算法,能够进一步提取人体骨架运动序列。利用这些运动序列信息,行为识别性能得到了很大提升,对智能视频监控、智能交通管理及智慧城市建设等具有重要意义。同时,随着行人智能分析与群体事件感知的需求与日俱增,一系列行为分析与事件识别算法在深度学习技术的推动下应运而生。下面将介绍我们最新的相关研究。

图1 行为识别的定义及应用领域

1.基于层级化循环神经网络的人体骨架运动序列行为识别

目前基于人体骨架的行为识别方法主要可分为两类:1)基于局部特征的方法:该类方法是对序列中的各时刻的人体骨架的局部几何结构做特征提取,然后利用词包(Bag of Words, BoW)模型结合时间金字塔(Temporal Pyramid, TP)或是结合动态时间规整(Dynamic Time Warping, DTW)进行识别,该类方法没有或是只能局部考虑运动序列的时序信息,其识别过程更多地依赖局部静态结构特征;2)基于序列状态转移的方法:该类方法主要是利用HMM 对行为演化的动态过程进行建模,其两个主要不足是不仅需要对序列做预对齐,同时还需要估计状态转移过程的迁移概率,这本是两个比较困难的问题,其识别的精度也往往偏低。本研究主要基于微软的Kinect 和运动捕获系统提取的人体骨架运动序列,结合人体运动的相对性,提出了基于递归神经网络的人体骨架运动序列的行为识别模型。提出的模型首先对已经提取好的人体骨架姿态序列中节点坐标进行归一化,以消除人体所处绝对空间位置对识别过程的影响,利用简单平滑滤波器对骨架节点坐标做平滑滤波以提高信噪比,最后将平滑后的数据送入一个层次化双向递归神经网络同步进行深度特征表达提取、融合及识别,同时提供了一种层次化单向递归神经网络模型以应对实际中的实时分析需求。该方法主要优点是根据人体结构特征及运动的相对性,设计端到端的分析模式,在实现高精度识别率的同时避免复杂的计算,便于实际应用。本工作及其扩展版本先后发表在CVPR-2015及IEEE TIP-2016上。

图2 基于层级化RNN的人体骨架序列行为识别示意图

2.基于双流循环神经网络的行为识别

由于深度传感器的成本的降低和实时的骨架估计算法的出现,基于骨架的行为识别研究越来越受欢迎。传统方法主要基于手工特征设计,对行为中运动的表达能力有限。最近出现了一些基于循环神经网络的算法,可以直接处理原始数据并预测行为。这些方法只考虑了骨架坐标随着时间的动态演变,而忽略了它们在某一个时刻的空间关系。在本文中,我们提出一种基于双流循环神经网络的方法如图三,分别对骨架坐标的时间动态特性和空间相对关系建模。对于时间通道,我们探索了两种不同的结构:多层循环神经网络模型和层次化的循环神经网络模型。对于空间通道,我们提出两种有效的方法把坐标的空间关系图转换为关节点的序列,以方便输入到循环神经网络中。为了提高模型的泛化能力,我们探究了基于三维坐标变换的数据增强技术,包括旋转、缩放和剪切变换。 在深度视频的行为识别标准数据库的测试结果显示,我们的方法对于一般行为,交互式行为和手势的识别结果都有相当大的提高。该工作已被CVPR-2017接收。

图3 基于双流RNN的骨架的行为识别方法

3.基于类相关玻尔兹曼机的视频事件分析

我们研究了有监督模型中的视频表达学习,以期望利用类标签学到更有区分力的表达,可同时用于视频分类和检索。我们知道,由于低层视觉特征与类标签之间的语义鸿沟、高维低层特征对后续分析所产生的计算代价以及有标签训练样本的缺乏,在不受控制的网络视频中分析无结构的群体行为和事件是一个非常具有挑战性的任务,如图四所示。为了克服这些困难,我们希望能够学习一个含有语义信息的紧凑中层视频表达。因此,我们提出了一种新的有监督概率图模型:类相关受限玻尔兹曼机(Relevance Restricted Boltzmann Machine, ReRBM),学习一种低维的隐语义表达用于复杂行为和事件分析。提出的模型在受限玻尔兹曼机(RBM)的基础上进行了一些关键性扩展:1)将稀疏贝叶斯学习与RBM结合来学习具有区分力的与视频类相关的隐含特征;2)将RBM中的二进制随机隐含单元替换为非负线性单元来更好的解释复杂视频内容,并使得变分推理能够适用于提出的模型;3)开发了有效的变分EM算法用于模型的参数估计和推理。我们在三个具有挑战性的标准视频数据集(Unstructured Social Activity Attribute、Event Video和Hollywood2)上对提出的模型进行了评估。实验结果表明,相比其他的一些隐变量概率图模型如图五所示,提出的模型所学到的类相关特征提供了对视频数据更具有区分力的语义描述,在分类准确率和检索精度上获得了最好结果,特别是在使用很少有标签训练样本的情况下。这项工作发表在机器学习、神经信号处理领域顶级国际会议NIPS 2013上,其扩展后的版本被计算机视觉领域顶级国际期刊IJCV 2016发表。

图 4 不同类型的活动 (简单动作、结构化活动、非结构化群体事件)

图5 基于类相关受限玻尔兹曼机的视频表达

4.采用双通道卷积神经网络的基于行走行为的身份识别

基于行走行为的身份识别,即步态识别一般指的是给定一个步态序列,要求从一个匹配库中找出与之最相似的序列,从而确定所给定序列中人的身份。步态是远距离、非受控情况下唯一可感知的生物特征,使用范围可远达50米,在远距离大范围的视觉监控场合具有不可替代的应用前景和研究价值。我们提出的方法处理的是预先提取好的步态能量图(Gait Energy Images,GEI),步态能量图是将视频序列中提取出的行人剪影对齐后沿时间维度平均得到的一种2D的灰度图像。首先,考虑到基于步态能量图的步态识别中局部细节差异的重要性,多点的局部比较应该会优于一次全局比较;其次,两个处于不同视角的样本可能会在表观上出现巨大的差异,如果只考虑比较单元自己的局部区域,将很难捕捉到足够的信息进行比较;另外还需要判别式地学习特征和比较模型。以上的三点都可以在一个深度卷积神经网络中实现,从而我们提出了基于上下文的跨视角步态识别方法如图六所示,在极为困难的同时跨视角和行走状态的任务中,也能够达到足够让人接受的识别效率。相关成果已发表在IEEE TMM-2015与TPAMI-2017上。

图6 步态识别流程图与提出的模型结构图


原文发布时间为:2017-09-13

本文作者:赵放、杜勇、王洪松、吴子丰

时间: 2024-09-17 03:49:04

深度学习助力实现智能行为分析和事件识别的相关文章

深度学习与中文短文本分析总结与梳理

1.绪论 过去几年,深度神经网络在模式识别中占绝对主流.它们在许多计算机视觉任务中完爆之前的顶尖算法.在语音识别上也有这个趋势了.而中文文本处理,以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,但没有开源)本文暂且梳理一下,尝试围绕深度学习和短文本处理的方方面面就最简单的概念进行一次梳理,并且试图思考一个问题: 深度学习处理中文短文本的最终效果是什么? 我思考后的答案是:是一种模型,可以无需任何语言学知

【智驾深谈】李德毅院士:深度学习将成为智能驾驶的新维度

上期智驾深谈聊到智驾三层次:感知层.认知层和行动层. 实际上感知层面上,无论车道线.交通标志还是车辆识别,都已经大规模采用了深度学习技术:行动层由于汽车工业百年的发展和积淀,已经可以很好地由现代控制理论解决:所以就剩下认知层,还真是个大号的硬钉子. 一个好的认知模型需要对环境有精准的理解和预判,还需要据此做出下一步的决策和规划,这里面的挑战就是复杂的动态交通环境.在深度学习出现之前,很难有一个模型能够很好地对此建模.预测和决策.而李德毅院士的工作,就聚焦在利用深度学习技术,解决智能驾驶中认知的问

量子纠缠:从量子物质态到深度学习

1. 引言 经典物理学的主角是物质和能量.20 世纪初,爱因斯坦写下E =mc2 ,将质量和能量统一在了一起.而从那之后,一个新角色--信息(Information)--逐渐走向了物理学舞台的中央.信息是关于不确定程度的度量.Shannon 创立信息论的初衷是为了定量化地描述信息的存储和传输.Jaynes 从信息论的角度研究多粒子体系,重新阐释了统计力学.原来,物理学家所熟知的热力学熵与Shannon 用来衡量信息量的信息熵(Information Entropy)系出同源.Landauer 指

深度学习再度点燃人工智能 安防成重点领域

过去5年间,计算能力的大幅进步触发了AI革命,谷歌母公司Alphabet.亚马逊.苹果.Facebook以及微软等科技巨头争先进入这个领域.尤其是自去年人工智能机器人大与人类棋手开展,人工智能关注度达到了一个新的高峰.其实,人工智能的发展可以追述到60几年前,但是因为技术的原因数次沉寂,直到深度学习的出现,让人工智能再次掀起热潮. 深度学习再度点燃人工智能 安防成重点领域 什么是深度学习? 深度学习是机器学习方法之一,而机器学习则是让计算机从有关我们周围世界或其中某个特定方面的范例中学习,从而让

人工智能在深度学习领域的前世今生

雷锋网(公众号:雷锋网)按:本文作者兰彻, 文章详细介绍了1)人工智能发展的七个重要阶段:2)深度学习在人工智能的发展:3)最后也提出作者对于深度学习挑战和未来发展的看法. 这两年人工智能热闹非凡,不仅科技巨头发力AI取得技术与产品的突破,还有众多初创企业获得风险资本的青睐,几乎每周都可以看到相关领域初创公司获得投资的报道,而最近的一次春雷毫无疑问是Google旗下Deepmind开发的人工智能AlphaGo与南韩李世石的围棋之战,AiphaGo大比分的获胜让人们对AI刮目相看的同时也引发了对A

演讲稿丨李磊 深度学习让计算机和你我说话对答

       今天碰到了很多以前的同事以及徐伟老师.我非常有幸两年之间跟徐伟老师和余凯博士有非常亲密的合作,跟他们学到了非常多的东西.今日头条是一个内容的生成平台以及分发平台.我们需要鼓励更多的人来参与内容的创造,在这个平台上面会有比传统平台更多的内容,每天可能会有上百万的内容,所以这个平台更需要通过人工智能机器学习的方法,来给每个用户推荐个性化的,你所喜爱的,你所需要消费的内容.        我今天会围绕深度学习的理解和视频分析方面的应用.66年前计算机领域的一位前驱在一篇很有名的文章<计算

深度学习如何落地安防应用?为何被称为安防行业的颠覆性力量?

近日,市场研究&咨询公司GrandViewResearch发布了一份深度学习市场分析报告.报告表明,2016年全球深度学习市场估值为2.72亿美元,其在自动驾驶和医疗行业的应用越来越多,有望为行业增长做出突出贡献.这项技术的崛起得益于数据驱动的复杂应用,包括语音和图像识别,它可以和其他技术一起克服大数据量和高计算能力的挑战以及改进数据存储.同时在刚举行的"2017 CCF青年精英大会"上,香港中文大学教授汤晓鸥作了<人工智能的明天,中国去哪?>的主题演讲.其中,针对

深度学习为何成为颠覆安防行业的力量?

深度学习技术的发展使人工智能产业的冰山正在迅速融化成一股势不可挡的洪流,冲击着安防行业的产业变革.安防行业众多一线厂商携手世界顶级人工智能芯片厂商发力智能硬件产品升级,并将CV领域的最尖端的图形处理器应用于新型硬件产品的研发. 深度学习为何成为颠覆安防行业的力量? 近日,市场研究&咨询公司GrandViewResearch发布了一份深度学习市场分析报告.报告表明,2016年全球深度学习市场估值为2.72亿美元,其在自动驾驶和医疗行业的应用越来越多,有望为行业增长做出突出贡献.这项技术的崛起得益于

【Science】超越深度学习300倍, Vicarious发布生成视觉模型,LeCun批“这就是AI炒作的教科书”

最近大家都在探索"超越深度学习"的方法,"美国版DeepMind" Vicarious 近日在Science上发布的一项研究,使用不同于深度学习的方法,将数据使用效率提升了300多倍,"对于未来的通用人工智能有重要意义".该研究称,使用这种新的技术,他们攻破了网站常见的验证码防御,相当于通过了"反向图灵测试".LeCun对这家公司和他们的研究提出了尖锐的批评,说"这是AI炒作教科书式的例子".不过,支持Vi