《中国人工智能学会通讯》——9.14 从多标记学习到标记分布学习

9.14 从多标记学习到标记分布学习

现有的机器学习范式中,与一个示例对应的标记复杂度相关的主要包括单标记学习(SLL, Single-Label Learning)与多标记学习(MLL, Multi-LabelLearning)。其中 SLL 假设每个训练示例对应一个标记,而 MLL 允许一个训练示例对应多个标记。MLL 能够处理示例与标记之间一对多的不确定性,因此比 SLL 更具有通用性。

MLL 与 SLL 类似,旨在解决“哪些标记可以描述示例”,而不能解决“标记在多大程度上描述了示例”。在现实中,尽管一个示例可以有多个标记,但往往各个标记的重要程度不尽相同。例如图 1 所示的图像,尽管该图像的标记为天空、云、建筑与水,但是从图像中可以看出,天空、云、水与图像的相关程度明显高于建筑。
由以上分析可知,MLL 在处理不同标记重要性问题时存在局限性。对于这类问题,一个更加合理的解决方案为:定义一个实数 来表示标记 y 对示例 x 的描述度。不失一般性,假设 ;此外,假设标记集是完备的,即使用所有的标记能够完全描述该示例,即 。因所有标记的描述度构成形式与概率分布类似,称其为标记分布,并据此提出一种新的学习范式——标记分布学习(LDL,Label Distribution Learning) [9] ,即每个训练示例对应一个标记分布。对于多标记问题,MLL 缺省情况下假设相关标记的相关度是相同的(无关标记的相关度为 0),而 LDL 允许直接显式表示示例与不同标记的相关度差异,与 MLL 相比,LDL 解决了标记对示例描述程度大小的不确定性,因此比 MLL更具通用性。

时间: 2024-10-24 06:24:22

《中国人工智能学会通讯》——9.14 从多标记学习到标记分布学习的相关文章

中国人工智能学会通讯——当知识图谱“遇见”深度学习 1.1 知识图谱与深度学习融合的历史背景

大数据时代的到来,为人工智能的飞速 发展带来前所未有的数据红利.在大数据的 "喂养"下,人工智能技术获得了前所未有 的长足进步.其进展突出体现在以知识图谱 为代表的知识工程以及深度学习为代表的机 器学习等相关领域.随着深度学习对于大数 据的红利消耗殆尽,深度学习模型效果的天 花板日益迫近.另一方面大量知识图谱不断 涌现,这些蕴含人类大量先验知识的宝库却 尚未被深度学习有效利用.融合知识图谱与 深度学习,已然成为进一步提升深度学习模 型效果的重要思路之一.以知识图谱为代表 的符号主义,以

《中国人工智能学会通讯》——4.41 两种学习之间有什么区别?

4.41 两种学习之间有什么区别? 来 看 一 下 剑 桥 大 学 信 息 工 程 教 授 ZoubinGhahramani 对贝叶斯规划学习(BPL)的评价,他认为 BPL 对人工智能.认知科学和机器学习是一个重大的贡献.深度学习目前已取得了重要的成功,但是也必须非常清醒地认识到深度学习的局限性,因为深度学习需要大量的数据,并且在很多任务上表现很差. 深度学习(DL)主要解决的是计算机"运筹帷幄"的问题,实现"要从大量数据形成抽象":而贝叶斯规划学习(BPL)主要

《中国人工智能学会通讯》——2.27 利用深度学习改进统计机器翻译

2.27 利用深度学习改进统计机器翻译 利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型[1] .翻译模型 [2] .调序模型 [3] .词语对齐[4]等. 深度学习能够帮助机器翻译缓解数据稀疏问题.以语言模型为例.语言模型能够量化译文的流利度,对译文的质量产生直接的重要影响,是机器翻译中的核心模块.传统的语言模型采用 n-gram方法,通过极大似然估计训练模型参数.由于这种方法采用离散表示(即每个词都是独立的符号),极大似然估计面临着严重

《中国人工智能学会通讯》——6.4 基于深度学习的知识图谱构建

6.4 基于深度学习的知识图谱构建 随着深度学习在自然语言处理领域应用的不断深入,人们也开始尝试将深度神经网络用于知识图谱的自动构建.在此,以实体和关系的表示学习技术为基础,讨论深度学习在命名实体识别.关系抽取.关系补全等任务上的应用. 命名实体识别 命名实体识别是从文本中提取出和人名.地名等特定的短语或名称的任务.早期的命名实体识别主要基于规则和词典来进行,对规律性较强的文本环境较为适合,但难以摆脱对领域专家的的依赖,费时费力且难以移植[28] .随着语料数据的增长,研究者逐步将机器学习和统计

《中国人工智能学会通讯》——7.2 基于深度学习的自然语言处理

7.2 基于深度学习的自然语言处理 深度学习旨在模拟人脑对事物的认知过程,一般是指建立在含有多层非线性变换的神经网络结构之上,对数据的表示进行抽象和学习的一系列机器学习算法.该方法已对语音识别.图像处理等领域的进步起到了极大的推动作用,同时也引起了自然语言处理领域学者的广泛关注. 如图 1 所示,深度学习为自然语言处理的研究主要带来了两方面的变化,一方面是使用统一的分布式(低维.稠密.连续)向量表示不同粒度的语言单元,如词.短语.句子和篇章等:另一方面是使用循环.卷积.递归等神经网络模型对不同的

中国人工智能学会通讯——金融博弈下的价值学习 1.1 多代理环境下的博弈与学习

1.1 多代理环境下的博弈与学习 我们考虑的是多代理环境下的博弈与学习.对于通常情况下的机器学习,我们有很多的知识了解,那么在我们不知道的环境下该怎么处理?这种情况下我们考虑的是对抗性学习和博弈学习.这样的应用目前已经越来越多,特别是在金融和经济学里. 关于对抗性学习,前面的报告提到GAN的网络,在这方面我们也可以考虑到反垃圾邮件时,filter要经常转变. 博弈学习是另外一种情况,博弈学习时,并不是完全对抗的,可能还会合作.在这种情况下我们对学习有什么样的理解. 这里最重要的一点是,我们有时并

《中国人工智能学会通讯》——3.4 网络表示学习的应用

3.4 网络表示学习的应用 由于基于神经网络的网络表示方法的高效性,它被越来越多地应用到除传统应用场景(如网络节点分类.推荐和链接预测等)之外的其他方面(如文本建模[17,28]和可视化处理[29] ). 文本语料可以表示为一个带权重的网络结构(节点表示词,边权重表示词与词之间共现的程度),因此网络的表示方法同时也可以应用到文本建模中.LINE [17] 模型一个重要的应用就是学习词的向量表示,相比现在流行的 Skip-gram 词向量模型,它具有效率更高和效果更好的特点.在文献 [17] 中,

《中国人工智能学会通讯》——11.30 深度迁移学习

11.30 深度迁移学习 随着互联网技术在各个领域的广泛应用,特别是社会网络,以及移动计算的崛起,文本.图像.视频等非结构化数据呈现出指数式增长,迫切需要有效的数据分析方法和高效的数据处理算法.机器学习作为大数据智能化分析的主要技术基石,在理论和实践两方面都取得了飞速进展,特别是在深度学习[1]上取得了革命性突破. 虽然人们已经能够通过信息系统.社会媒体.移动计算.工业互联网等渠道收集到大规模.多模态.高维度.快速变化的大数据,但大数据中高价值的标记数据还是比较稀缺的.从监督机器学习的视角来看,

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.