《中国人工智能学会通讯》——11.32 国内外研究现状

11.32 国内外研究现状

迁移学习最初是在 1995 年举行的 NIPS 神经信息处理系统进展大会“Learning to Learn”研讨会上由卡耐基梅隆大学 Tom Mitchell 等人提出,并迅速发展起终身学习、归纳迁移等多个学习范式,其中发展最快的是多任务学习[6] ,已成为具有严格理论保证的迁移学习方向。随着迁移学习研究的进展,2005 年美国国防部国防高等计划研究署(DARPA)赋予了迁移学习新的研究使命:学习系统应具备将过去任务学习的知识和技能应用于新任务的能力。此后,迁移学习和多任务学习具有了不同的研究目标:多任务学习侧重学习多个任务,对称地提高每个任务的学习效果,是多个经典监督学习任务的叠加和强化;而迁移学习侧重从历史任务迁移知识到目标任务,是经典监督学习在异构分布下的扩展和深化。近十年来迁移学习取得了众多理论和方法成果,成为机器学习的前沿研究方向之一。

本文主要研究面向大数据分析的深度迁移学习,涉及的关键技术有分布差异度量准则、领域不变特征学习、可扩展性优化算法等。下面综述国内外的研究现状,从而明确本文的研究问题和主要创新点。

分布差异度量准则:迁移学习中训练数据(源领域)和测试数据(目标领域)不服从独立同分布条件,从而对机器学习的泛化能力提出了更高的要求。纽约大学 Mohri et al [7] 提出迁移学习理论,证明迁移学习的泛化误差界由训练数据上的经验风险,以及训练数据与测试数据之间的概率分布差异两部分决定。由此可见,分布差异度量准则是迁移学习的关键技术支撑之一。统计学界和机器学习界都提出了有理论保证的分布差异度量准则,包括能量距离[8]和核嵌入距离[9]等。卡耐基梅隆大学Smola et al [9] 提出的最大均值差异准则(MaximumMean Discrepancy,MMD)在迁移学习中得到了最为广泛的应用,相关代表性工作包括:德国普朗克智能系统研究院 Schölkopf et al [10] 提出基于 MMD的样本重要性调整法,通过调整训练样本重要性权重使其概率分布与测试数据更相似;香港科技大学Yang et al [11] 提出基于 MMD 的迁移降维学习方法,通过最小化 MMD 准则学习训练数据和测试数据的公共降维子空间,使分布差异在该子空间中达到最小;南洋理工大学 Tsang al et [12] 提出迁移多核学习方法,将 MMD 准则作为多核支持向量机的正则项,使多核支持向量机能从源领域泛化到目标领域;Long et al [13] 提出适应正则化框架,扩展 MMD 准则同时度量边缘分布差异和条件分布差异,在数据与模型同时失配的场景下取得了显著的准确率提升。

虽然基于 MMD 准则的迁移学习方法较为成功,且是少数初步具备泛化误差界的迁移学习方法,但仍存在以下局限:① 核函数的局部泛化能力不足以刻画样本分布间的结构性差异[1] ;② 预设参数的核函数对分布差异度量不能达到最优[14] 。这导致分布差异校正不足,提高负迁移风险。对第一个问题,Long et al [15] 提出领域不变迁移核学习方法,通过对源领域和目标领域核矩阵的本征系统进行匹配并最小化两者之间的低秩重构误差,学得领域不变核支持向量机。对第二个问题,统计学界已提出 MMD的改进方法,例如伦敦大学学院 Pontil et al [16] 提出多核最大均值差异(MK-MMD)准则。将这些新准则用于提升迁移学习的准确率和安全性,是一个有待研究的重要问题。领域不变特征学习:除基于分布差异度量准则的方法外,另一类代表性方法是通过隐含特征学习降低领域差异,例如 Blitzer et al [17] 提出的结构对应学习,Yang et al [18] 提出的谱特征对齐等,但这些方法通常依赖于领域先验知识(如自然语言的词频词义),因而对通用机器学习任务(如对象识别)并无明显的效果。为了解决现有隐含特征学习方法过度依赖于领域先验知识的缺点,深度学习被成功用于提取抽象特征表示、强化迁移学习效果。加拿大蒙特利尔大学 Y. Bengio 课题组首次将深度去噪自编码器用于大规模跨领域情感分类,取得了该数据集上最好的实验效果[19] ;他们在 NIPS 2014 论文中透彻地研究了深度神经网络的可迁移性,证明深度学习可以降低但不能消除不同领域之间的分布差异[20] 。加州大学伯克利分校 T. Darrell 课题组将深度卷积网络用于抽取领域不变通用特征,在多种计算机视觉任务(对象识别、场景识别等)取得非常好的识别效果[21-22] 。斯坦福大学 A. Y. Ng 课题组将深度学习用于多模态学习,使知识可以在图像、视频等不同模态之间有效迁移,开创了深度学习与多模态学习结合的先河[23] 。

虽然深度学习可以大幅提高迁移学习效果,但抑制可变的隐含因式结构可能会扩大跨领域数据分布之间的差异。这是因为在深度特征表示下源领域和目标领域都变得更“紧致”从而更容易区分,根据迁移学习理论,这种扩大的分布差异会降低迁移学习效果,提高负迁移风险。为此,本文创新了深度迁移学习范式,在国际上首次将分布差异度量准则与深度学习方法紧密结合,提高深度迁移学习的安全性和对跨领域数据分析的有效性,推导了泛化误差界[24] 。不过,这仅是初步的进展,在深度网络架构、误差函数定义、可扩展优化算法方面还有很多工作要做。

可扩展性优化算法:机器学习方法的效果与训练数据规模具有正相关性,通常训练数据越多模型所表现的效果越好。深度卷积网络能够取得比支持向量机更优越的性能,一个重要的原因是深度卷积网络具有线性的计算复杂度,可以处理超大规模的数据集;而基于非线性核函数的支持向量机具有二次或以上计算复杂度,只能处理中小规模的数据集。现有迁移学习方法大多要求二次或以上计算复杂度,不满足大数据分析需求。深度学习方法虽然具备线性复杂度,但这类方法未考虑分布差异问题。因此,亟待研究深度迁移学习方法的线性复杂度可扩展性优化算法。

综上所述,迁移学习作为一个前沿方向,现有的多数方法都基于较强的模型假设,负迁移(Negative Transfer)风险高[3] ,在实践中依赖试错,技巧性要求高。为此,亟待研究深度迁移学习模型和方法,提高迁移学习的安全性。

时间: 2024-08-02 19:16:59

《中国人工智能学会通讯》——11.32 国内外研究现状的相关文章

《中国人工智能学会通讯》——4.6 研究现状及关键技术

4.6 研究现状及关键技术 在大部分基于路网的空间关键词查询研究中,路网以有向图的形式表示,即 G=(V,E),其中 V 表示路网中的交叉结点或者根据计算需要人为引入的结点:E 表示连接结点与结点之间的有向边.城市空间文本数据则由大量带有位置属性和文本属性的空间文本对象(Spatio-Textual Objects)组成.空间文本对象可以是物理世界中的实体对象,如商店和公共设施:也可以是各类和实体对象相关联的虚拟对象,如针对实体对象的广告和网络评论.每个空间文本对象表示为 o=(loc, t),

《中国人工智能学会通讯》——10.18 研究进展

10.18 研究进展 本节将就复杂网络化系统安全控制研究的最新进展展开综述,主要涉及系统的安全架构分析与建模.攻击检测与安全评估,以及安全控制等诸方面.通过综述,将对国内外相关领域的主要工作分别进行总结,并分析存在的不足. 1 . 系统架构分析与建模 围绕复杂网络化系统的构架分析与建模,国内外学者开展了一系列研究工作.一方面,主要侧重于通信网络与物理系统在统一描述框架下的时空分析.实时性与稳定性等.例如文献 [11-20] 分别考虑网络通信因素(包括数据传输时滞.丢包.数据量化.干扰.带宽受限等

《中国人工智能学会通讯》——1.12 研究热点

1.12 研究热点 下面从社区问答系统的三个元素(问题.答案.社区)出发,对当前的研究热点进行简单介绍.表 1列出了社区问答系统中比较具有代表性的研究问题. 1 . 问题相关研究 (1) 相似问题检索 相似问题检索(Question Retrieval)是指给定用户提交的查询问题(Queried Question),从已有历史问题答案库中,检索出与查询问题在语义上相同或相似的历史问题(Historical Question),并将这些问题及其答案返给用户.如果用户能很快找到满意的相似问题及其答案

《中国人工智能学会通讯》——9.7 研究进展

9.7 研究进展 哈希学习由 Salakhutdinov et al [13-14] 于 2007 年推介到机器学习领域 , 近几年迅速发展成为机器学习领域和大数据学习领域的一个研究热点[15-23] , 并广泛应用于信息检索[27-28] .数据挖掘 [29-30] .模式识别[31-32] .多媒体信息处理 [33-34] .计算机视觉 [35-36] .推荐系统[37-38] , 以及社交网络分析 [39-40]等领域. 下面将对已有的代表性哈希学习方法进行简单介绍. 基于松弛的两步学习策

《中国人工智能学会通讯》——7.14 研究展望

7.14 研究展望 基于上面的讨论,可以看到目前神经网络模型(特别是深度模型)在推荐系统中的应用还是处于很初步的阶段,在未来会有更多.更广泛的尝试.下面对于未来四个可能的研究方向进行简要介绍. 结构化神经网络模型 目前在推荐系统已发表的学术论文中,比较成功的神经网络模型还是基于多层感知器架构进行变型的模型,很少有相关公开的科研成果报道基于结构化的神经网络模型取得了显著提高.这里结构化神经网络主要包括基于序列的循环神经网络或者树结构的递归神经网络.目前推荐系统面临的数据附加信息不断增加,因此原始的

中国人工智能学会通讯——人工智能发展的思考

2016 年是充满了纪念意义的特殊的一年:80 年前的 1936 年,"人工智能之父"图灵提出了"可计算机器"的概念,为人工智能乃至现代信息科技奠定了基础:70年前的 1946 年,世界上第一台电子计算机ENIAC 在美国滨州诞生:60 年前的 1956年"人工智能"的概念首次被提出:50 年前的 1966 年,第一次颁发"图灵奖",到目前为止已经有 64 位获奖者:10 年前的2006 年,深度学习概念开始为大家所熟悉,并流

《中国人工智能学会通讯》——2.9 国内外研究现状

2.9 国内外研究现状 腿式机器人的研制 从上世纪 50 年代开始,各国科学家开始致力于腿式机器人的研究,希望在借鉴腿式动物的骨骼结构.肌腱驱动.运动特点和控制模式等基础上,研制出运动能力强.环境适应性好和能量效率高的腿式仿生机器人. 在双足机器人研究领域,目前最具代表性的双足机器人主要集中在日本和美国.日本本田公司2000 年发布了双足机器人 ASIMO [1] ,其最新版本身高 130 cm,体重 48 kg,最高运动速度 9 km/h,可以步行.奔跑.跳跃,甚至上下楼梯和微不平整地面行走,

《中国人工智能学会通讯》——5.2 国内外研究现状

5.2 国内外研究现状 飞机数字化智能制造技术 世界航空发达国家的飞机自动化智能制造技术,已从由单台数控自动钻铆机和数控托架组成的自动钻铆系统,向由自动化装配工装.模块化加工单元.数字化定位和检测系统.复杂多轴数控系统和离线编程与仿真软件等组成的自动化装配系统发展,大部分基于 CATIA 平台进行设计,保证了装配系统与飞机产品的数字化协调[3] .国外大型飞机自动化智能制造技术基本上按产品的结构形式和特点来发展,发展的自动化装配系统主要有柔性机翼壁板装配系统.柔性翼梁装配系统.复合材料升降舵柔性

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.