Yann LeCun的“层级损失函数”:牧羊犬和摩天大楼,哪个更像哈巴狗?

近期Yann LeCun的新作《Hierarchical loss for classification》已经放在了arXiv上,联合作者为Facebook人工智能研究院的Cinna Wu和 Mark Tygert。


在这篇文章中,作者认为在分类任务中,一般的神经网络模型(例如LeCun, Bengio 和 Hinton等人2015年中的模型,其他研究的模型也大多基于此展开的)很少会考虑到类型之间的亲疏关系,例如这些模型的分类学习过程中并没有考虑牧羊犬事实上比摩天大楼更像哈巴狗。在文章中,作者通过“超度规类树”构造了一种新的损失函数,称为“层级损失函数”。这种损失函数因为内含了类型树中不同类之间的亲疏关系,预期中应当能够增强分类学习的效果。不过经过六组实验的对比,作者发现结果并没有显著的改进。作者认为,不管怎么着吧,至少这表明层级损失函数能用。

雷锋网认为,它不仅能用,还极具潜力,因为LeCun只是用了最简单的“超度规类树”来阐述这种思想,相信在选用更合适的超度规树后,分类学习会得到一个更好的结果。下面我们来看具体内容。

一、构建层级损失/获得函数

注:由于获得函数(Win Function)与损失函数是同一个内容的相反表示,训练过程其实就是在寻找最小的损失函数或者最大的获得函数。所以接下来只考虑层级获得函数的构建。

构建层级获得函数,首先需要一个类树,也即将待分的所有类按照亲疏关系放到一颗关系树中,每一个类都是类树中的“树叶”。对于一个输入,分类器会映射到类树每个树叶上一个概率值,也即一个概率分布(图中P1-P7)。类树中每个节点处,文章中规定,其对应的概率值为其下所有树叶概率值的和,如图中所示。显然在不考虑计算机的浮点误差的情况下,“根部”的概率应该为1。

另一方面,对每个“节点”和“树叶”都赋予一个权重。文章中规定,“根部”的权重为1/2,随后每经过一个“节点”,权重乘以1/2,直到树叶;树叶的权重由于是“树”的末端,所以其权重要双倍,如图所示。

如果我们输入一张A的图片,那么我们可以计算其层级获得函数W:

其中

从上面可以看到,事实上层级获得函数的构造非常简单,就是一个结构权重向量和概率分布向量的一个点乘。同样可以看出,不管分类器给出什么样的概率分布,层级获得函数的范围都在[1/2,1]区间内;当P1=1时,W最大,为1;而当P5、P6、P7中的任意一个等于1时,W最小,为1/2。在类树中接近A的类的概率越大,层级获得函数值就越大,所以层级获得函数在某种程度上隐含了类之间亲疏的关系,也构建了分类器准确度的一种度量。

二、一种改进:获得函数的对数

有时候分类器给出的分布可能不是概率,这时候为了获得一个正则的分布,我们可以使用softmax函数的方法,也即将(x1, x2, x3, ……xn)的分布序列转换成

这样的概率分布,显然满足正则性,且分布在(0,1)区间内。这种方法不仅可以对向量进行归一化,更重要的是它能够凸显出其中最大的值并抑制远低于最大值的其他分量。

当采用softmax函数的结果作为概率分布时,最好是使用层级获得函数W的对数进行优化学习,而不是W本身。使用logW进行优化的好处之一就是,当输入样本为多个独立样本时,它们的联合概率将是它们概率的乘积;这时候对这些样本的获得函数W进行求平均就具有了意义(在特殊情况下logW的平均将等于联合概率的对数)。

文章中对logW’ 的构建为:舍掉W中“根部”的项,然后将剩下的部分乘以2,此时W’=(W-1/2)*2的范围在[0,1]之间(其中0对应最错误的分类,1则对应完全正确的分类),相应的,logW’将在(-∞,0]之间。

这就会导致一个问题。当多个独立样本,求log W’的平均值时,只要有一个出现了最错误的判断,那么不管其他样本的结果如何,log W’的平均值都会等于无穷大。所以这种方法对样本及学习过程都有非常严格的要求。

三、实验结果不理想

作者随后用Joulin等人的fastTest文本分类监督学习模型对层级获得函数进行了六组实验(六个数据集)。结果如下:

说明:
(1)flat表示没有分类的情况(没有分类相当于类树只有一个层级),raw表示用层级获得函数进行训练,log表示用负的层级获得函数的对数进行训练,course表示在层级中使用通常的交叉熵损失函数只分类到最粗糙类(聚合)。

(2)one-hot win via hierarchy 表示喂给层级获得函数的概率分布为独热码(只有一个为1,其余为0)

(3)softmax win via hierarchy 表示喂给层级获得函数的概率分布为softmax函数的结果;

(4)−log of win via hierarchy 表示(3)中层级获得函数的负自然对数;

(5)cross entropy表示使用交叉熵损失函数计算的结果,这种情况相当于类树只有一个层级;

(6)coarsest accuracy 表示最粗糙分类正确的比例结果;

(7)parents’ accuracy 表示父级分类正确的比例结果;

(8)finest accuracy 表示分类到最终每一个类中正确的比例结果。

(9)最后一行的“higher”和“lower”分别表示相应的列中“越大”和“越小”的值越好。


通过以上结果,我们可以看到很多时候,通过层级获得函数优化的结果并没有原来通过交叉熵损失函数优化的结果好。那么,LeCun的这项工作白做了吗?也并不是,至少它表明在一定程度上层级获得函数能够用做作为分类准确度的度量,它暗示了一种可能:当有采用更合适的层级获得函数时,效果可能会超过当前所常用的交叉熵损失函数等方法。

那么机会来了,“更合适”有多种可能,就看你如何构造了!

本文作者:camel

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-08 16:25:35

Yann LeCun的“层级损失函数”:牧羊犬和摩天大楼,哪个更像哈巴狗?的相关文章

大咖 | 从Ian Goodfellow到Yann LeCun,对话Quora AI大佬TOP 10

与AI大咖对话,是不是听起来就很激动呢? 在人工智能.数据科学领域,学术与行业的发展瞬息万变,成果频出,通过二手资料了解这一领域似乎已远远不够.如果有机会,当然还是要紧跟大咖们的步伐呀~ 那么,人工智能.数据科学领域的大咖到底在哪里?文摘菌悄悄告诉你,他们可都在国外知名问答论坛Quora上等着你呢!从GAN之父Ian Goodfellow,到CNN之父Yann LeCun,你都能在Quora上找到他们的身影. 今天,文摘菌就将为你盘点Quora上人工智能.数据科学领域的10位大咖,并为每位大咖精

Yann LeCun说是时候放弃概率论了,因果关系才是理解世界的基石

今年9月初,Yann LeCun在Cognitive Computational Neuroscience (CCN) 2017上发表了题为"为什么大脑能短时间内学习如此多东西?"的演讲,在演讲中他提到,他已经做好放弃概率论(throw Probability Theory under the bus)的准备. 他认为概率理论只是一个工具,而非现实或智能系统的基本特征.作为一个工具,它就存在应用领域的限制.就算你的锯子能够砍树,这并不意味着它就能切割钛. 点击查看Yann LeCun演

Yann LeCun连发三弹:人人都懂的深度学习基本原理(附视频)

一名 AI 专家值多少钱? "基于我个人经验,一名计算机领域的 AI 专家对于企业的价值,至少为 500-1000 万美元.为了争夺这些少数的人才,正在开展竞标大战." 这是卡耐基梅隆大学计算机科学院院长 Andrew Moore 教授在 11 月 30 日美国参议院听证会上 ,所说的话. 这场听证会名为"AI 破晓"(The Dawn of Artificial Intelligence),由参议员泰德·科鲁兹主持,主题是探讨人工智能当前的形势,对政策的影响及其对

Facebook Yann LeCun一小时演讲: AI 研究的下一站是无监督学习(附完整视频)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一. 近日,LeCun在卡内基梅隆大学机器人研究所进行了一场 AI 技术核心问题与发展前景的演讲.他在演讲中提到三点干货: 1. 无监督学习代表了 AI 技术的未来. 2. 当前 AI 应用的热点集中在卷积神经网络.  3. 用模拟器提高无监督学习的效率是大势所趋. 演讲完整视频如下.该视频长 75 分钟,并包含大量专业术语,因此雷锋网节选关键内容做了视频摘要,以供读者浏览

大神Yann LeCun亲授:如何自学深度学习技术并少走弯路

编者按:深度学习领域泰斗级人物 Yann LeCun 是 Quora上非常踊跃的答者,他乐于分享自己的心得体会.例如,有人问"你最喜欢的机器学习算法是什么?",Yann LeCun 的回答是"Backdrop".深度学习是新兴领域,很多人想要学习,也不知如何入手,所以 Quora上有很多关于"如何学习深度学习技术"的问题,Yann LeCun 在一些问题下面给出了一些自己的见解,雷锋网(公众号:雷锋网)据此整理编辑成本文,供读者参考. 问:自学机

Yann LeCun、Jeff Dean频繁亮相普及人工智能知识,全民AI时代来临|AI科技评论周刊

前段时间,吴恩达连续给业界人士写了两篇公开信,为各行各业普及了人工智能在行业中的应用.而在最近,谷歌大脑负责人 Jeff Dean 和 Yann LeCun 也频繁在公众场合露脸,为大众解读机器学习.无监督学习.增强学习等技术. 大神Yann LeCun亲授:如何自学深度学习技术并少走弯路 Facebook 的博客上发布了一条新消息,放出大神 Yann LeCun 亲自讲解 AI 知识的三弹视频.然而如果 AI 领域的专业读者,稍微点开视频一看,便知道这好像是一个高中老师在讲科普课的风格. 三弹

AI科技评论专访Yann LeCun: 关于深度学习未来的14个问题

"ICLR算是一个必须的选择吧,因为其实没有很多的选择.所以从1996或者1997年以后,我组织了一个工作室,学习工作室,每年大概只有八九十人参加.到了2006.2007年,深度学习的大潮来临的时候,这个工作室增长得很快,我们觉得需要有一个深度学习方面的会议,所以我们就在4年前的时候把这个邀请制的工作室变成了开放式的会议.我觉得这个决定非常棒,每年都吸引了很多参加者.今年1100人,去年500多人,前年两三百人,第一年的时候130人,所以本质上它发展得也很快." 4月23-26日,IC

【独家】关于深度学习,Yann LeCun给大学生的十四条建议

[导读]Yann LeCun是深度学习研究领域内一个响当当的名字,卷积神经网络(Convolutional Neural Network)正是他的代表作.他为有志成为深度学习领域科研人员的大学生提出了14条建议,其中编号为0的是对于课程选择的建议,编号1-13则是完整的.可操作的成为科研人员的指导手册. 0. Take all the continuous math and physics class you can possibly take. If you have the choice b

大神 Yann LeCun:我们的使命是终结“填鸭式” AI

无监督学习才是 AI 的未来,目前的 AI 技术太过于稚嫩! 无监督学习是一大难题,Facebook 的 AI 大牛 Yann LeCun 一直在追寻它.他承诺带领研究人员进入下一代人工智能,机器将拥有更高的智能,可以感知世界,并采取相应的行动,我们称之为常识. 今天,LeCun 在 O'Reilly 举办的人工智能会议上跟人群交谈时,对深度学习表示了祝贺.该技术促使 Facebook 创造了 DeepMask + SharpMask,它是一款使用人工智能来识别图像中对象的开源软件. LeCun