9.14 从多标记学习到标记分布学习
现有的机器学习范式中,与一个示例对应的标记复杂度相关的主要包括单标记学习(SLL, Single-Label Learning)与多标记学习(MLL, Multi-LabelLearning)。其中 SLL 假设每个训练示例对应一个标记,而 MLL 允许一个训练示例对应多个标记。MLL 能够处理示例与标记之间一对多的不确定性,因此比 SLL 更具有通用性。
MLL 与 SLL 类似,旨在解决“哪些标记可以描述示例”,而不能解决“标记在多大程度上描述了示例”。在现实中,尽管一个示例可以有多个标记,但往往各个标记的重要程度不尽相同。例如图 1 所示的图像,尽管该图像的标记为天空、云、建筑与水,但是从图像中可以看出,天空、云、水与图像的相关程度明显高于建筑。
由以上分析可知,MLL 在处理不同标记重要性问题时存在局限性。对于这类问题,一个更加合理的解决方案为:定义一个实数 来表示标记 y 对示例 x 的描述度。不失一般性,假设 ;此外,假设标记集是完备的,即使用所有的标记能够完全描述该示例,即 。因所有标记的描述度构成形式与概率分布类似,称其为标记分布,并据此提出一种新的学习范式——标记分布学习(LDL,Label Distribution Learning) [9] ,即每个训练示例对应一个标记分布。对于多标记问题,MLL 缺省情况下假设相关标记的相关度是相同的(无关标记的相关度为 0),而 LDL 允许直接显式表示示例与不同标记的相关度差异,与 MLL 相比,LDL 解决了标记对示例描述程度大小的不确定性,因此比 MLL更具通用性。
时间: 2024-10-24 06:24:22