《中国人工智能学会通讯》——4.24 机器的视觉注意

4.24 机器的视觉注意

1 . 表达方式

对于给定的图像或视频数据,机器的视觉注意过程是希望能找到场景中较为显著(或突出)的区域,其输出结果一般采用视觉显著度图(Saliency Map)的形式。其中每个空间位置的显著性一般用值域为 [0,1]的概率值来表示。概率值越大,表示该位置越有可能成为人类视觉关注的目标。以图 1 为例,图中第一行为原始输入影像;第二行为视觉显著度图(每个像素的灰度值是将其对应位置的概率值线性放大到值域[0,255],并予以显示)。图像中强度越高的区域表示越有可能是兴趣区域,强度越低则表示越不显著[6] 。

2 . 传统范式传统的视觉显著性分析模型主要考虑自下而上的视觉注意过程,采用对比分析范式,依照对比线索的参考范围可进一步细分为局部对比范式和全局对比范式。局部对比范式主要是通过像素(或区域)与其局部邻域的视觉对比度来定义该像素(或区域)的视觉显著性程度。这一类模型中很多工作都与 Koch 等于 1985 所假设的人类视觉系统的生物模型[7]有着一定程度的联系。Itti 等的工作[8]即是直接基于该生物模型而展开,即首先通过高斯差分(Difference ofGaussians)算子从图像中获取一系列的、多尺度的低层特征,而后采用局部的中心 - 周边差异(Centrer-Surround Difference)算子对这些特征进行归一化和整合,并结合返回抑制(Inhibition of Return)操作得到视觉显著度图。

另有一些工作更直接地依赖于纯粹的局部视觉对比度分析,比如将扫描窗内区域与扫描窗外周边区域之间的平均特征向量差异,作为确定扫描窗中心位置的视觉显著度的依据[9] ,以影像内各位置与其局部邻域之间的 KL 散度(Kullback-Leibler Divergence)来定义视觉显著度[10] ,或通过局部控制核(Local SteeringKernels)以待测像素与其周边邻域间的梯度对比度来计算视觉显著性[11] 。

全局对比范式则是在进行对比分析时充分考虑跨区域、时段的视觉单元。比如,通过计算各像素的颜色信息与图像经高斯平滑后的全局颜色均值之间的差异[12] ,比对各个图像块与全局范围内 k 近邻之间的相似性[13] ,或以颜色成分为处理单元对比各种颜色的全局分散度[14]来定义视觉显著度。

对于自上而下的视觉注意,有很多证据表明诸如行人、人脸、汽车、文字等在影像中具有概念意义的高层信息在预测注视点位置时比低层视觉特征更有效[15-17] 。遗憾的是,目前而言只有少量可执行的计算模型能够对这些高层信息加以利用,而其中大部分都需要依赖于眼动跟踪或目标检测技术[18-21] 。

3 . 发展现状研究者们从计算机科学的角度关注视觉注意已有近 40 年的研究历史。让机器具有视觉注意功能无疑是一项有趣而极具意义的工作。我们以《中国计算机学会推荐国际学术会议与期刊目录》(人工智能)A 类目录3为参考,对 2011—2015 年间视觉显著性分析领域学术论文的发表情况进行了统计,期望从一个侧面反映此研究领域的发展以供业界参考。统计结果参见表 1,其数据来源于计算机科学文献库 DBLPComputer Science Bibliography 4 。可以看出,就目前而言研究者们对该领域投入的关注度相对而言仍显不足。

时间: 2024-09-19 08:53:41

《中国人工智能学会通讯》——4.24 机器的视觉注意的相关文章

《中国人工智能学会通讯》——11.22 人类视觉机制启发下的物体分割研究

11.22 人类视觉机制启发下的物体分割研究 视觉分割是指将视觉信号划分为互不重叠的区域,得到关于该信号的一个紧致表达,它是计算机视觉的核心问题之一.按照在视觉系统中的层次划分,视觉分割可以分为底层的超像素分割和中高层的物体分割,图 1 所示的是这两类分割的典型例子. 超像素分割属于底层视觉处理的范畴,其利用底层的颜色.纹理等特征将视觉信号分割成具有不同特性的区域,构成关于视觉信号的一种简化表达,即超像素[1] .物体分割则属于中高层视觉处理的范畴,其主要指从视觉信号中提取感兴趣的物体区域(例如

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——人工智能发展的思考

2016 年是充满了纪念意义的特殊的一年:80 年前的 1936 年,"人工智能之父"图灵提出了"可计算机器"的概念,为人工智能乃至现代信息科技奠定了基础:70年前的 1946 年,世界上第一台电子计算机ENIAC 在美国滨州诞生:60 年前的 1956年"人工智能"的概念首次被提出:50 年前的 1966 年,第一次颁发"图灵奖",到目前为止已经有 64 位获奖者:10 年前的2006 年,深度学习概念开始为大家所熟悉,并流

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智