《中国人工智能学会通讯》——11.30 深度迁移学习

11.30 深度迁移学习

随着互联网技术在各个领域的广泛应用,特别是社会网络,以及移动计算的崛起,文本、图像、视频等非结构化数据呈现出指数式增长,迫切需要有效的数据分析方法和高效的数据处理算法。机器学习作为大数据智能化分析的主要技术基石,在理论和实践两方面都取得了飞速进展,特别是在深度学习[1]上取得了革命性突破。

虽然人们已经能够通过信息系统、社会媒体、移动计算、工业互联网等渠道收集到大规模、多模态、高维度、快速变化的大数据,但大数据中高价值的标记数据还是比较稀缺的。从监督机器学习的视角来看,只有大规模的标记数据才是真正有用的大数据。例如当前取得革命性突破的深度神经网络需要在百万规模以上的标记数据集上进行分布式并行训练,才能获得理想的准确率和运行效率[2] 。由于大数据具有多数据源、异构模态、快速变化的特点,因此在进行特定领域、特定模态、特定时段的数据分析任务时,常常会出现标记数据稀缺,包括深度神经网络在内的监督学习无法成功应用的问题,这极大地限制了监督学习在大数据分析中的应用范畴和实用价值。

为了应对标记数据稀缺问题,增强对大数据的内容分析和语义理解能力,推出了基于群体智慧的知识图谱,对一些重要领域的大规模数据进行标记,如文本领域的维基百科、图像领域的 ImageNet,在这些大规模标记数据集上训练的深度网络往往具备很强的泛化能力。如何对这些富标记数据进行知识迁移,解决无标记或弱标记场景下的机器学习问题,近年来获得了学术界和产业界的广泛重视。迁移学习(Transfer Learning) [3-4] 是机器学习的重要前沿方向,其目标是将源领域或任务上的知识迁移到新领域或任务上。迁移学习中训练数据(源领域)和测试数据(目标领域)不再服从独立同分布条件,对机器学习的泛化能力提出了更高的要求,是经典监督学习的扩展和深化。

迁移学习的研究具有重要的理论意义和应用价值。首先,标记数据稀缺会导致经典监督学习出现严重的过拟合,虽然半监督学习、主动学习等也可以缓解标记稀缺,但这些学习范式仍要求提供相当数量的同领域标记数据。其次,经典统计学习理论[5]给出了独立同分布条件下的学习泛化误差界,这是统计学习成功的关键支撑之一。然而迁移学习中训练数据和测试数据不再服从独立同分布条件,经典统计学习理论不再成立,这给异构领域数据分析带来负迁移风险[3] ,亟待研究迁移学习泛化理论和安全迁移学习方法。最后,在数据挖掘、自然语言处理、计算机视觉、生物信息学等交叉领域中标记数据稀缺问题突出,迁移学习具有很强的现实需求,已经发挥起越来越重要的作用。

综上所述可见,面向大数据分析的深度迁移学习方法的研究,是一项具有重要理论价值和广泛应用前景的工作。本文解决模型安全性和算法可扩展性问题,包括分布差异度量准则、深度迁移网络架构、可扩展性优化算法等。

时间: 2024-09-22 09:06:56

《中国人工智能学会通讯》——11.30 深度迁移学习的相关文章

中国人工智能学会通讯——AI如何深度应用于消费金融的风控决策 1.5 最后,无监督学习可以很好补充基于规则的反欺诈场景。

1.5 最后,无监督学习可以很好补充基于规则的反欺诈场景. 虽然欺诈方式一直在变,但好客户的特征并不会发生剧烈变化.所以,通过识别和好客户不一样的用户特征,更加容易发现欺诈.比如同一家门店,连续来了5个客户,都不是当地人,但身份证前6位都一样,就不满足正常的统计分布规律,出现了异常情况.通过聚类.异常检测等无监督学习算法,可以及时发现未知的异常,及时进行干预. 利用强大的计算能力作支撑,通过海量数据的收集处理,以及不断提升机器学习算法,秦苍科技的人工智能正在不断帮助提升风险决策,迎接当前消费金融

《中国人工智能学会通讯》——8.9 演化学习研究进展

8.9 演化学习研究进展 机器学习[1]是人工智能领域最重要的分支之一,主要研究计算机如何通过利用经验自动提高自身的性能,并已成为智能数据分析的主要方法.按照监督信息的不同,机器学习问题可以分为监督信息完全的监督学习.没有监督信息的无监督学习,以及介于两者之间的弱监督学习,其中弱监督学习包括监督信息滞后的强化学习.监督信息缺失的半监督学习.多示例学习等.AAAI Fellow 美国华盛顿大学 P. Domingos 教授指出"机器学习=表示 +评估 + 优化" [2] ,即不同的机器学

《中国人工智能学会通讯》——8.13 强化学习

8.13 强化学习 强化学习[27]通过与环境交互,学习决策策略,对于每一步决策,环境反馈一个奖赏值,强化学习的目的是学得最大化长期累积奖赏的策略.例如在下棋中,强化学习的策略对于棋盘状态给出走子决策,直到分出胜负时强化学习获得长期奖赏,并通过胜负结果调整策略,提高策略的胜率.可见强化学习面临的优化问题比监督学习更加复杂. 演化强化学习[28]借助演化算法的优化能力对策略进行有效搜索.当策略模型可以参数化表示时,例如使用一组规则或神经网络作为策略模型,演化算法被用于直接搜索策略,以优化策略获得的

中国人工智能学会通讯——心智模型CAM的学习记忆机制 1.1 心智模型 CAM

智能科学是当代脑科学.认知科学.人 工智能等的前沿交叉学科,研究智能的理论 和技术,其核心问题之一是构建心智模型. 心智模型 CAM(Consciousness And Memory Model)是一种通用智能系统架构.本文主要 介绍心智模型 CAM 的学习记忆机制,重点 讨论记忆的生理基础.互补学习系统.学习 记忆进化等问题. 1.1 心智模型 CAM 心智 (mind) 是人类全部精神活动 , 包括 情感.意志.感觉.知觉.表象.学习.记忆. 思维.直觉等:心智是指一系列认知能力组 成的总体

《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法

9.12 集成学习中的挑战性问题及解决方法 然而,传统的集成学习算法,特别是聚类集成算法,在集成器成员选择.聚类结果融合.集成器参数优化等方面还存在一些亟待解决的科学问题(见图 4): ① 集成器存在冗余成员,影响集成的最终结果:② 聚类集成算法集成器中多个聚类结果的融合质量有待进一步提高:③ 没有考虑到集成器参数往往受到外在环境(如样本空间和属性空间)和内在环境(如集成器基础模型的参数和权重)的影响. Yu et al [17] 针对上述科学问题,围绕"集成学习理论与应用",从集成器

《中国人工智能学会通讯》——9.10 集成学习的动机和优势

9.10 集成学习的动机和优势 与单一的学习模型相比,集成学习模型的优势在于能够把多个单一学习模型有机地结合起来,获得一个统一的集成学习模型,从而获得更准确.稳定和强壮的结果.在美国 NETFLIX 电影推荐比赛中,基于集成学习的推荐算法获得了第一名.在多次 KDD 和 ICDM 的数据挖掘竞赛中,基于集成学习的算法都取得了最好的成绩.集成学习算法已成功应用于智能交通中的行人检测.车辆检测等,图像和视频处理中动作检测.人物追踪.物体识别等,生物信息学蛋白质磷酸化位点预测.基因组功能预测.癌症预测

《中国人工智能学会通讯》——8.10 特征学习

8.10 特征学习 特征的好坏直接影响学习的结果,对于有冗余.噪音特征的数据,特征选择能够简化后续学习模型的复杂度,减少模型运行时间,提高模型精确度.然而特征选择问题不仅是一个 NP 难的优化问题,而且还是一个双目标优化问题:选择尽可能少的特征,同时使学习结果的性能指标尽可能好,可形式化如其中,x 是表示每一维特征是否选择的 0/1 向量:f(x) 为特征的性能指标: 表示选择特征的数量.如果将该优化转换为通常的单目标优化,如,不仅涉及特征个数的目标往往较为复杂,而且如何为特征选择的两个目标选取

《中国人工智能学会通讯》——9.13 集成学习未来的发展趋势

9.13 集成学习未来的发展趋势 集成学习未来的发展趋势主要有集成学习模型的优化和集成学习模型的并行化两大块.在大数据时代,数据来源各有不同,大数据的海量多元异构特性已经成为大数据智能处理的瓶颈.如何对多元数据进行融合和挖掘成为大数据智能处理函需解决的问题.集成学习非常适合用于多元数据融合和挖掘,在集成学习里,集成器由一组单一的学习模型所构成,每一个学习模型都可以对应每一个来源的数据,并自动地提取该数据源所蕴含有价值规律.因此,集成学习能够提供一个统一的框架用于分析异构性极强的多元数据,实现多元

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智