11.30 深度迁移学习
随着互联网技术在各个领域的广泛应用,特别是社会网络,以及移动计算的崛起,文本、图像、视频等非结构化数据呈现出指数式增长,迫切需要有效的数据分析方法和高效的数据处理算法。机器学习作为大数据智能化分析的主要技术基石,在理论和实践两方面都取得了飞速进展,特别是在深度学习[1]上取得了革命性突破。
虽然人们已经能够通过信息系统、社会媒体、移动计算、工业互联网等渠道收集到大规模、多模态、高维度、快速变化的大数据,但大数据中高价值的标记数据还是比较稀缺的。从监督机器学习的视角来看,只有大规模的标记数据才是真正有用的大数据。例如当前取得革命性突破的深度神经网络需要在百万规模以上的标记数据集上进行分布式并行训练,才能获得理想的准确率和运行效率[2] 。由于大数据具有多数据源、异构模态、快速变化的特点,因此在进行特定领域、特定模态、特定时段的数据分析任务时,常常会出现标记数据稀缺,包括深度神经网络在内的监督学习无法成功应用的问题,这极大地限制了监督学习在大数据分析中的应用范畴和实用价值。
为了应对标记数据稀缺问题,增强对大数据的内容分析和语义理解能力,推出了基于群体智慧的知识图谱,对一些重要领域的大规模数据进行标记,如文本领域的维基百科、图像领域的 ImageNet,在这些大规模标记数据集上训练的深度网络往往具备很强的泛化能力。如何对这些富标记数据进行知识迁移,解决无标记或弱标记场景下的机器学习问题,近年来获得了学术界和产业界的广泛重视。迁移学习(Transfer Learning) [3-4] 是机器学习的重要前沿方向,其目标是将源领域或任务上的知识迁移到新领域或任务上。迁移学习中训练数据(源领域)和测试数据(目标领域)不再服从独立同分布条件,对机器学习的泛化能力提出了更高的要求,是经典监督学习的扩展和深化。
迁移学习的研究具有重要的理论意义和应用价值。首先,标记数据稀缺会导致经典监督学习出现严重的过拟合,虽然半监督学习、主动学习等也可以缓解标记稀缺,但这些学习范式仍要求提供相当数量的同领域标记数据。其次,经典统计学习理论[5]给出了独立同分布条件下的学习泛化误差界,这是统计学习成功的关键支撑之一。然而迁移学习中训练数据和测试数据不再服从独立同分布条件,经典统计学习理论不再成立,这给异构领域数据分析带来负迁移风险[3] ,亟待研究迁移学习泛化理论和安全迁移学习方法。最后,在数据挖掘、自然语言处理、计算机视觉、生物信息学等交叉领域中标记数据稀缺问题突出,迁移学习具有很强的现实需求,已经发挥起越来越重要的作用。
综上所述可见,面向大数据分析的深度迁移学习方法的研究,是一项具有重要理论价值和广泛应用前景的工作。本文解决模型安全性和算法可扩展性问题,包括分布差异度量准则、深度迁移网络架构、可扩展性优化算法等。