《中国人工智能学会通讯》——9.7 研究进展

9.7 研究进展

哈希学习由 Salakhutdinov et al [13-14] 于 2007 年推介到机器学习领域 , 近几年迅速发展成为机器学习领域和大数据学习领域的一个研究热点[15-23] , 并广泛应用于信息检索[27-28] 、数据挖掘 [29-30] 、模式识别[31-32] 、多媒体信息处理 [33-34] 、计算机视觉 [35-36] 、推荐系统[37-38] , 以及社交网络分析 [39-40]等领域。

下面将对已有的代表性哈希学习方法进行简单介绍。

基于松弛的两步学习策略

由于从原空间中的特征表示直接学习得到二进制的哈希码是一个 NP 难问题[15] , 现在很多的哈希学习方法[15,18,20-21]都采用基于松弛 (relaxation) 的两步学习策略。第一步 , 将哈希码的学习过程从离散(二进制)空间松弛(relax)到实值空间中 , 得到一个度量学习 (metric learning) [41] 模型 , 然后利用该度量学习模型进行降维 , 得到一个低维空间的实数向量表示 ; 第二步 , 对得到的实数向量进行量化 ( 即离散化 ) 得到二进制哈希码。 现有的方法对第二步的处理大多很简单 , 即通过某个阈值函数将实数转换成二进制位。通常使用的量化方法为一个阈值为0 的符号函数 , 即如果向量中某个元素大于 0, 则该元素被量化为 1;如果小于或等于 0, 则该元素被量化为 0。 例如 , 假设样本在原空间中的特征表示为一个 5 维实数向量 (1.1, 2.3, 1.5, 4, 3.2), 经过某种度量学习 ( 通常把降维看成度量学习的一种 ) 处理后得到一个 3 维的实数向量 (1.8, -2.3, 0.6), 然后经过符号函数量化后 , 得到的二进制哈希码为 (1, 0, 1)。一般来说 , 度量学习阶段首先要构建学习模型 , 然后对模型参数进行优化和学习。

下面从学习模型、参数优化、量化策略三方面介绍基于松弛的两步学习策略的最新进展。

根据学习模型 ( 一般指度量学习阶段的模型 )是否利用样本的监督信息 ( 例如类别标记等 ), 现有的哈希学习模型可以分为非监督模型[19-21] 、半监督模型[18,42-43]和监督模型[31,44-45] 。非监督模型又可以进一步细分为基于图的模型[20]和不基于图的模型[19,21] , 监督模型又可以进一步细分为监督信息为类别标记的模型[31,44]和监督信息为三元组或者排序信息的模型[45] 。实际上 , 这每一个细分的类对应于机器学习中一个比较大的子方向 , 例如基于图的模型。由此可以看出 , 哈希学习实际上是一个覆盖范围非常广的研究领域,具有广阔的应用前景。此外 ,度量学习是机器学习领域的研究热点之一 , 而度量学习方面的工作刚好可以用来实现基于松弛的两步学习策略的第一步 , 因此目前很多哈希学习模型 ( 包括非监督、半监督和监督 ) 只是直接利用或者简单改进已有度量学习模型 , 然后采用上述的符号函数进行量化 , 得到哈希编码。经过一些探索[21,23,28] , 我们发现度量学习得到的结果通常是在模型目标函数的限制下使得信息损失最小 , 因此得到的总是最优的结果 ; 而在将度量学习应用到哈希学习中时 , 除了第一步的度量学习可能造成信息损失外 , 第二步量化过程的信息损失对性能的影响也非常大 , 有时甚至超过第一步造成的信息损失 , 因此 , 第一步度量学习得到的最优结果并不能保证最终量化后的二进制编码为最优。目前 , 很多哈希学习方法没有将量化过程中的信息损失考虑到模型构建中去。

现有的参数优化方法大概可以分为两类。第一类是采用与传统度量学习的优化方法类似的策略 ,对所有位对应的(实数)参数一次性全部优化[15,20] 。这种策略带来的一个不利后果是没办法弥补量化过程带来的信息损失, 有可能导致的结果是随着哈希码长度的增大 , 精确度反而下降。 第二类是避免一次性全部优化所有位对应的 ( 实数 ) 参数[18,23,42] , 而采用按位 (bitwise) 优化策略 , 让优化过程能够自动地弥补量化过程中损失的信息。实验结果表明 , 即使学习模型的目标函数相同 , 采用按位优化策略能取得比一次性全部优化所有参数的策略更好的性能。 但按位优化策略对模型目标函数有一定的要求和限制 , 比如目标函数可以写成残差的形式[23] 。目前 , 大部分哈希学习方法还是采取一次性全部优化所有参数的策略。

哈希学习与传统度量学习的一个本质的区别是需要量化成二进制码。现有的哈希学习方法大多采用很简单的量化策略 , 即通过某个阈值函数将实数转换成二进制位。 最近出现一些专门研究量化策略的工作[28,46-47] , 并且发现量化策略也会影响哈希学习方法的性能 , 至少与第一步的度量学习阶段同等重要。我们在文献 [28,46] 中 , 采用对度量学习阶段得到的每一个实数维进行多位编码的量化策略 , 取得了比传统的单位编码策略更好的效果。一般来说 , 度量学习的结果中 , 各维的方差 ( 或信息量 ) 通常各不相等[19,21] 。而现有的很多方法采用“度量学习 + 相同位数编码”的策略[15,20] , 导致的结果是随着哈希码长度的增大 , 精确度反而下降。一种更合理的量化策略是 ,采用更多的位数编码信息量更大的维。目前 , 有部分工作在这方面进行了尝试 , 取得了不错的结果[47] 。

离散哈希学习

基于松弛的两步学习策略将哈希码的学习过程从离散空间松弛到实值空间中 , 得到一个度量学习模型,然后再将度量学习得到的实值向量量化到离散空间中。 这个过程与原始的哈希学习目标存在一定的偏离 , 因此,学习到的哈希码效果往往不是很理想。一种更好的策略是采用离散优化来直接学习离散的哈希码,这类方法叫做离散哈希学习方法。

现有的离散哈希学习方法可以分为两大类,即半离散方法和完全离散方法。半离散方法[48-50]通常在原始目标中不采用将目标离散变量松弛到实值空间的策略 , 而引入新的实值变量将部分复杂约束 ( 例如正交约束 ) 松弛到实值空间 , 然后采用交替优化的策略 , 使得优化过程中新引入的实值变量和目标离散变量之间相互作用(尽可能接近)让目标离散变量尽可能地满足约束。完全离散方法[51]不引入新的实值变量,而是直接对目标离散变量进行离散优化得到哈希码。研究表明 , 离散哈希学习能显著提高哈希查询的召回率[48] , 从而有效地避免使用哈希查询时的空桶现象。 目前的离散哈希学习方法已经在无监督哈希[48] 、监督哈希 [49,51]中取得了一定的进展 , 并应用到协同过滤[50]等场景中。

深度哈希学习

传统的哈希学习一般基于手工特征 ( 如 SIFT、GIST 等 ), 而深度学习提供了一种更好的特征提取框架 , 并使得在哈希学习中采用端到端的学习方式成为可能。 因此 , 近期出现的深度哈希学习将深度学习和哈希学习结合起来,成为一个新的研究热点。

虽然有些深度哈希学习方法[52]也直接利用手工特征作为输入,但大部分深度哈希学习方法利用了深度学习的自动特征学习能力 , 下面对这些具有自动特征学习能力的方法进行介绍。

早期的深度哈希学习方法[53]将基于深度学习的特征学习过程和哈希码学习过程分割成两个互不影响的两个阶段,即先基于监督信息学习得到哈希码,然后用哈希码来指导特征学习过程,这两个阶段之间没有相互反馈。因此,这类方法学习得到的特征和哈希码并不一定能取得满意的结果。近期出现的深度哈希学习方法[54-59]利用端到端的方式 , 将特征学习过程和哈希码学习过程整合到一个统一的框架中,使得特征学习过程和哈希码学习过程可以相互提供反馈。实验结果表明,这类方法取得了比基于手工特征的方法更好的精确度,而且优于将特征学习过程和哈希码学习过程分割成两个阶段的深度哈希学习方法[53] 。

时间: 2024-08-12 13:35:46

《中国人工智能学会通讯》——9.7 研究进展的相关文章

中国人工智能学会通讯——神经环路研究最新进展及对类脑计算的启示 1.复杂科学

刚才讲到深度学习,脑环路和深度学习可能有一些相似性,但有些是不同的地方.我的演讲有两部分内容,一方面我一直强调复杂科学对整个领域的影响:另外和它相关的话题就是大脑的连接结构. 1.复杂科学 我们是生活在一个复杂的世界里,有空间.时间及时空的复杂性.什么叫复杂性?大家可能知道有个叫复杂性科学的领域90年代比较热,后来冷了一些.但是大家觉得这个领域还处于萌芽期,真正大放异彩的时候是在未来.概括起来说,复杂性有一些共同的特点,在看似复杂的过程中有一些规律,但是规律不是那么清晰,现在更多是统计上的规律.

中国人工智能学会通讯——三维视觉研究及应用 1.3 最近几年的工作

1.3 最近几年的工作 我是来自模式识别国家重点实验室的机器人视觉组,我们研究组专注于三维计算机视觉有20年的历史,在理论方面.在三维视觉的各个方面都有系统性的深入积累,除了发表在视觉领域顶级期刊.顶级会议的论文外,还有在国内外的竞赛中拿第一名的成绩,还有国内外专利的申请与授权.中英文专著的出版.另外,我们也追求技术的应用,我们和国内外的企业有长期合作. 1. 图像匹配 (1)图像描述子的提取 图像匹配里一个重要的工作,就是对图像描述子的提取.我们让一张图像参与计算,首先让图像里的一些特征进行代

中国人工智能学会通讯——三维视觉研究及应用 1.2 三维视觉的应用场合

1.2 三维视觉的应用场合 三维计算机视觉在计算机视觉领域是偏基础的方向,越基础应用越广泛,随着2010年阿凡达在全球热映以来,三维计算机视觉的应用从传统工业领域逐渐走向生活.娱乐.服务等,比如虚拟现实.增强现实都离不开三维视觉的技术.首先最直接的应用是在机器人领域的应用.一个机器人要在环境中行走,首先要知道这个环境中的三维结构是什么,所以要对周围的环境进行三维重建,这就是地图的重建:同时要知道它走在什么地方,就需要进行定位.目前,基于视觉传感器的机器人定位,也是最灵活.性价比最高的定位方式,相

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智