Yann LeCun的“层级损失函数”：牧羊犬和摩天大楼，哪个更像哈巴狗？

近期Yann LeCun的新作《Hierarchical loss for classification》已经放在了arXiv上，联合作者为Facebook人工智能研究院的Cinna Wu和 Mark Tygert。

在这篇文章中，作者认为在分类任务中，一般的神经网络模型（例如LeCun, Bengio 和 Hinton等人2015年中的模型，其他研究的模型也大多基于此展开的）很少会考虑到类型之间的亲疏关系，例如这些模型的分类学习过程中并没有考虑牧羊犬事实上比摩天大楼更像哈巴狗。在文章中，作者通过“超度规类树”构造了一种新的损失函数，称为“层级损失函数”。这种损失函数因为内含了类型树中不同类之间的亲疏关系，预期中应当能够增强分类学习的效果。不过经过六组实验的对比，作者发现结果并没有显著的改进。作者认为，不管怎么着吧，至少这表明层级损失函数能用。

雷锋网认为，它不仅能用，还极具潜力，因为LeCun只是用了最简单的“超度规类树”来阐述这种思想，相信在选用更合适的超度规树后，分类学习会得到一个更好的结果。下面我们来看具体内容。

一、构建层级损失／获得函数

注：由于获得函数（Win Function）与损失函数是同一个内容的相反表示，训练过程其实就是在寻找最小的损失函数或者最大的获得函数。所以接下来只考虑层级获得函数的构建。

构建层级获得函数，首先需要一个类树，也即将待分的所有类按照亲疏关系放到一颗关系树中，每一个类都是类树中的“树叶”。对于一个输入，分类器会映射到类树每个树叶上一个概率值，也即一个概率分布（图中P1-P7）。类树中每个节点处，文章中规定，其对应的概率值为其下所有树叶概率值的和，如图中所示。显然在不考虑计算机的浮点误差的情况下，“根部”的概率应该为1。

另一方面，对每个“节点”和“树叶”都赋予一个权重。文章中规定，“根部”的权重为1/2，随后每经过一个“节点”，权重乘以1/2，直到树叶；树叶的权重由于是“树”的末端，所以其权重要双倍，如图所示。

如果我们输入一张A的图片，那么我们可以计算其层级获得函数W：

其中

从上面可以看到，事实上层级获得函数的构造非常简单，就是一个结构权重向量和概率分布向量的一个点乘。同样可以看出，不管分类器给出什么样的概率分布，层级获得函数的范围都在[1/2，1]区间内；当P1=1时，W最大，为1；而当P5、P6、P7中的任意一个等于1时，W最小，为1/2。在类树中接近A的类的概率越大，层级获得函数值就越大，所以层级获得函数在某种程度上隐含了类之间亲疏的关系，也构建了分类器准确度的一种度量。

二、一种改进：获得函数的对数

有时候分类器给出的分布可能不是概率，这时候为了获得一个正则的分布，我们可以使用softmax函数的方法，也即将（x1, x2, x3, ……xn）的分布序列转换成

这样的概率分布，显然满足正则性，且分布在(0,1)区间内。这种方法不仅可以对向量进行归一化，更重要的是它能够凸显出其中最大的值并抑制远低于最大值的其他分量。

当采用softmax函数的结果作为概率分布时，最好是使用层级获得函数W的对数进行优化学习，而不是W本身。使用logW进行优化的好处之一就是，当输入样本为多个独立样本时，它们的联合概率将是它们概率的乘积；这时候对这些样本的获得函数W进行求平均就具有了意义（在特殊情况下logW的平均将等于联合概率的对数）。

文章中对logW’ 的构建为：舍掉W中“根部”的项，然后将剩下的部分乘以2，此时W’=(W-1/2)*2的范围在[0,1]之间（其中0对应最错误的分类，1则对应完全正确的分类），相应的，logW’将在(-∞，0]之间。

这就会导致一个问题。当多个独立样本，求log W’的平均值时，只要有一个出现了最错误的判断，那么不管其他样本的结果如何，log W’的平均值都会等于无穷大。所以这种方法对样本及学习过程都有非常严格的要求。

三、实验结果不理想

作者随后用Joulin等人的fastTest文本分类监督学习模型对层级获得函数进行了六组实验（六个数据集）。结果如下：

说明：
（1）flat表示没有分类的情况（没有分类相当于类树只有一个层级），raw表示用层级获得函数进行训练，log表示用负的层级获得函数的对数进行训练，course表示在层级中使用通常的交叉熵损失函数只分类到最粗糙类（聚合）。

（2）one-hot win via hierarchy 表示喂给层级获得函数的概率分布为独热码（只有一个为1，其余为0）

（3）softmax win via hierarchy 表示喂给层级获得函数的概率分布为softmax函数的结果；

（4）−log of win via hierarchy 表示(3)中层级获得函数的负自然对数；

（5）cross entropy表示使用交叉熵损失函数计算的结果，这种情况相当于类树只有一个层级；

（6）coarsest accuracy 表示最粗糙分类正确的比例结果；

（7）parents’ accuracy 表示父级分类正确的比例结果；

（8）finest accuracy 表示分类到最终每一个类中正确的比例结果。

（9）最后一行的“higher”和“lower”分别表示相应的列中“越大”和“越小”的值越好。

通过以上结果，我们可以看到很多时候，通过层级获得函数优化的结果并没有原来通过交叉熵损失函数优化的结果好。那么，LeCun的这项工作白做了吗？也并不是，至少它表明在一定程度上层级获得函数能够用做作为分类准确度的度量，它暗示了一种可能：当有采用更合适的层级获得函数时，效果可能会超过当前所常用的交叉熵损失函数等方法。

那么机会来了，“更合适”有多种可能，就看你如何构造了！

本文作者：camel

本文转自雷锋网禁止二次转载，原文链接

时间： 2024-08-08 16:25:35

Yann LeCun的“层级损失函数”：牧羊犬和摩天大楼，哪个更像哈巴狗？的相关文章

大咖 | 从Ian Goodfellow到Yann LeCun，对话Quora AI大佬TOP 10

与AI大咖对话,是不是听起来就很激动呢? 在人工智能.数据科学领域,学术与行业的发展瞬息万变,成果频出,通过二手资料了解这一领域似乎已远远不够.如果有机会,当然还是要紧跟大咖们的步伐呀~ 那么,人工智能.数据科学领域的大咖到底在哪里?文摘菌悄悄告诉你,他们可都在国外知名问答论坛Quora上等着你呢!从GAN之父Ian Goodfellow,到CNN之父Yann LeCun,你都能在Quora上找到他们的身影. 今天,文摘菌就将为你盘点Quora上人工智能.数据科学领域的10位大咖,并为每位大咖精

Yann LeCun说是时候放弃概率论了，因果关系才是理解世界的基石

今年9月初,Yann LeCun在Cognitive Computational Neuroscience (CCN) 2017上发表了题为"为什么大脑能短时间内学习如此多东西?"的演讲,在演讲中他提到,他已经做好放弃概率论(throw Probability Theory under the bus)的准备. 他认为概率理论只是一个工具,而非现实或智能系统的基本特征.作为一个工具,它就存在应用领域的限制.就算你的锯子能够砍树,这并不意味着它就能切割钛. 点击查看Yann LeCun演

Yann LeCun连发三弹：人人都懂的深度学习基本原理（附视频）

一名 AI 专家值多少钱? "基于我个人经验,一名计算机领域的 AI 专家对于企业的价值,至少为 500-1000 万美元.为了争夺这些少数的人才,正在开展竞标大战." 这是卡耐基梅隆大学计算机科学院院长 Andrew Moore 教授在 11 月 30 日美国参议院听证会上 ,所说的话. 这场听证会名为"AI 破晓"(The Dawn of Artificial Intelligence),由参议员泰德·科鲁兹主持,主题是探讨人工智能当前的形势,对政策的影响及其对

Facebook Yann LeCun一小时演讲： AI 研究的下一站是无监督学习（附完整视频）

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一. 近日,LeCun在卡内基梅隆大学机器人研究所进行了一场 AI 技术核心问题与发展前景的演讲.他在演讲中提到三点干货: 1. 无监督学习代表了 AI 技术的未来. 2. 当前 AI 应用的热点集中在卷积神经网络. 3. 用模拟器提高无监督学习的效率是大势所趋. 演讲完整视频如下.该视频长 75 分钟,并包含大量专业术语,因此雷锋网节选关键内容做了视频摘要,以供读者浏览

大神Yann LeCun亲授：如何自学深度学习技术并少走弯路

编者按:深度学习领域泰斗级人物 Yann LeCun 是 Quora上非常踊跃的答者,他乐于分享自己的心得体会.例如,有人问"你最喜欢的机器学习算法是什么?",Yann LeCun 的回答是"Backdrop".深度学习是新兴领域,很多人想要学习,也不知如何入手,所以 Quora上有很多关于"如何学习深度学习技术"的问题,Yann LeCun 在一些问题下面给出了一些自己的见解,雷锋网(公众号:雷锋网)据此整理编辑成本文,供读者参考. 问:自学机

Yann LeCun、Jeff Dean频繁亮相普及人工智能知识，全民AI时代来临｜AI科技评论周刊

前段时间,吴恩达连续给业界人士写了两篇公开信,为各行各业普及了人工智能在行业中的应用.而在最近,谷歌大脑负责人 Jeff Dean 和 Yann LeCun 也频繁在公众场合露脸,为大众解读机器学习.无监督学习.增强学习等技术. 大神Yann LeCun亲授:如何自学深度学习技术并少走弯路 Facebook 的博客上发布了一条新消息,放出大神 Yann LeCun 亲自讲解 AI 知识的三弹视频.然而如果 AI 领域的专业读者,稍微点开视频一看,便知道这好像是一个高中老师在讲科普课的风格. 三弹

AI科技评论专访Yann LeCun: 关于深度学习未来的14个问题

"ICLR算是一个必须的选择吧,因为其实没有很多的选择.所以从1996或者1997年以后,我组织了一个工作室,学习工作室,每年大概只有八九十人参加.到了2006.2007年,深度学习的大潮来临的时候,这个工作室增长得很快,我们觉得需要有一个深度学习方面的会议,所以我们就在4年前的时候把这个邀请制的工作室变成了开放式的会议.我觉得这个决定非常棒,每年都吸引了很多参加者.今年1100人,去年500多人,前年两三百人,第一年的时候130人,所以本质上它发展得也很快." 4月23-26日,IC

【独家】关于深度学习，Yann LeCun给大学生的十四条建议

［导读］Yann LeCun是深度学习研究领域内一个响当当的名字,卷积神经网络(Convolutional Neural Network)正是他的代表作.他为有志成为深度学习领域科研人员的大学生提出了14条建议,其中编号为0的是对于课程选择的建议,编号1-13则是完整的.可操作的成为科研人员的指导手册. 0. Take all the continuous math and physics class you can possibly take. If you have the choice b

大神 Yann LeCun：我们的使命是终结“填鸭式” AI

无监督学习才是 AI 的未来,目前的 AI 技术太过于稚嫩! 无监督学习是一大难题,Facebook 的 AI 大牛 Yann LeCun 一直在追寻它.他承诺带领研究人员进入下一代人工智能,机器将拥有更高的智能,可以感知世界,并采取相应的行动,我们称之为常识. 今天,LeCun 在 O'Reilly 举办的人工智能会议上跟人群交谈时,对深度学习表示了祝贺.该技术促使 Facebook 创造了 DeepMask + SharpMask,它是一款使用人工智能来识别图像中对象的开源软件. LeCun

猜你喜欢

JSP的环境引擎--websphere

js|web Websphere的特点 WebSphere是IBM的一套软件产品,包括WebSphere应用服务器,WebSphere Studio和 WebSphere Performance Pa ...

ASP.NET四种页面导航方式的比较与选择

asp.net|比较|页面 ASP.NET应用中,Web表单之间的导航有多种方式:用超级链接,用Response.Redirect,用Server.Transfer,或者用Server.Execute ...

无线路由器常见安全设置

对于无线网络用户来说,很重要的一点就是应该懂得:无论使用了多么安全的无线网络,除非已经部署了端到端的加密技术,否则都没有所谓的真正的安全.虽然无线技术有很多的可用性方面优势,但是无线的安全性永远没有办 ...

用Dreamweaver CS3文件库功能快速更新网站

我们在建立一个较为大型的网站的时候会有很多的副页面框架模式甚至一些小的细节元素都是相同的,但是令人困扰的是在更新它们时却要费些周折,要一遍遍的反复更新每一个页面中的元素.现在我们可以对那个时代说再见了 ...

在Web页面中使用Media Player

在Web页中嵌入Media Player的方法比较简单,只要用HTML中的<Object></Object>可以了,如下所示. <OBJECT ID="WMP ...

怎样用Dreamweaver制作拖拽效果

在网上,我们经常可以看到一些非常实用的拖拽效果,特别是应用于网上购物时,访问者直接就可以把选中的物品拖拽到购物箱或者购物车里,非常方便.有趣.不过大多数人不知道,其实用Dreamweaver中的Beh ...

搜狗输入法U模式怎么样

1.U模式是专门为输入不会读的字所设计的. 说明:输入u键--依次输入一个字的笔顺. 笔顺讲解:h横.s竖.p撇.n捺.z折,就可以得到该字. 同时小键盘上的1.2.3.4.5也代表h.s.p.n ...

dlink路由器IE浏览器地址栏输入192.168.0.1无法找到

.检查电脑是否和LAN口(1,2,3,4口中任意一口)连好,对应的指示灯是否是亮的 2.如果是拨号上网的用户,请先删除宽带的拨号连接 3.检查IE是否设置了代理,如果有请取消.点击浏览器里面的工具 ...

教你玩转Win8输入法设置

在控制面板-时钟.区域和语言-语言下面点击"添加语言": 在"拼音Y"中找到"英语"(英文系统可直接查找英文语言首字母),双击打开: 在 ...

Word2003中如何隐藏智能标记操作按钮？

以下教程介绍Word2003怎样隐藏"智能标记操作"按钮的方法,具体操作步骤如下所述: 隐藏"智能标记操作"按钮 1 打开Word 2003文档,单击" ...

Win8操作中心的小白旗出现红叉如何解决?

1.首先,返回到win8系统的传统桌面位置,之后,同时按下win8电脑键盘上的win+X快捷键打开电脑的快捷菜单,在打开的快捷菜单中,点击进入到控制面板选项中. 2.在打开的win8系统的控制面板 ...

安全卸载U盘的另类方法

用完U盘后我们一般都要进行安全地删除设备,虽说现在的U盘都是可以热插拔的,但是随便拔出总会担心对它有损伤,很有可能造成数据丢失.因此,每次想拔出U盘之前,都要从任务栏上单击鼠标右键,选择" ...

用flash制作纸飞机滑翔天空的gif动画效果

这一节我们主要来学习flash动画中的动作补间动画,来制作滑翔的纸飞机动画.大家一起来欣赏学习下吧! 工具/原料电脑 flash软件风景图片一张纸飞机图片一张说明:小编使用的是flash ...

Git分支本地操作详解

引言在上一节中我们对Git的常用本地操作的命令进行详解,而本节要讲解的是Git的分支, 在讲解之前补充两点概念性的东西: 第一个: 第一节中一个读者提出的疑问,Git和SVN在版本控制中存储方式版本 ...

ios-UINavigationBar长文本问题

问题描述 UINavigationBar长文本问题我要导航栏能自动调整,这样可以根据标题长短显示.我用下面的代码但是还是会被截断. - (void) viewDidLoad { UILabel* t ...

如何使用Ubuntu Night及使用推荐的源

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; Ubuntu Night( http://ubuntu ...

关于c++中默认拷贝构造函数的理解

问题描述关于c++中默认拷贝构造函数的理解如题,请解释一次详细的原理假如我定义一个类的对象a,然后在没有自己编写构造函数的情况下用语句A b=a来初始化新的对象b,会发生什么,为什么? 解决方案 ...

c语言-俄罗斯方块C语言 12列改为10列后出错，新人求助！

问题描述俄罗斯方块C语言 12列改为10列后出错,新人求助! #include #include #include #include #include #include #ifdef _MSC_VE ...

机器学习温和指南

[编者按]机器学习是如今人工智能领域中进展最大的方面,更多的初学者开始进入了这个领域.在这篇文章中,机器学习与NLP专家.MonkeyLearn联合创始人&CEO; Raúl Garreta面 ...

微软发布VisualStudio2010支持云计算开发

4月12日上午消息,微软今天发布开发工具Visual Studio 2010.新版本的该软件可以支持开发者开发基于微软云计算操作系统Windows Azure的应用. 微软将Visual Studio ...

linux命令行下使用curl命令查看自己机器的外网ip_linux shell

Linux命令行下如何查看自己机器的外网ip?可以在命令行下使用curl命令实现这个功能,试一下下面的命令吧复制代码代码如下: curl ifconfig.me 输入此条命令,就可以获取到本机的外 ...

c-自动更新系统的设计和实现

问题描述自动更新系统的设计和实现如何做一个自动更新系统,用C/S模式开发,一个很常见的例子就是QQ版本的更新,如何实现的? 解决方案参考1http://download.csdn.net/det ...

网游推广出新招：帮网吧融资换来游戏代理

创业其实并非狭隘的开公司.办工厂,只要你有办法创造更大价值,都是创业. 在本文中,上海一家网游公司负责人邓亚洲就进行着自己的再次"创业",通过联合银行,让银行给上海一些正规网吧发放 ...

sqlserver通用的删除服务器上的所有相同后缀的临时表_MsSql

复制代码代码如下: use tempdb if object_id('tempdb..#table') is not null drop table tempdb..#table select na ...

求正则匹配&amp;lt;body&amp;gt;标记中&amp;lt;p&amp;gt;&amp;amp;nbsp;&amp;lt;/p&amp;gt;的内容

问题描述求正则语句匹配<body>标记中<p> </p>的内容解决方案解决方案二:在线等啦.目的是判断编辑器中的内容是否在显示时,输出的内容为空.兼容ie&a ...

急救·一直好好的突然一下就不行了· [NullReferenceException: 未将对象引用设置到对象的实例

问题描述未将对象引用设置到对象的实例.说明:执行当前Web请求期间,出现未经处理的异常.请检查堆栈跟踪信息,以了解有关该错误以及代码中导致错误的出处的详细信息.异常详细信息:System.NullR ...

使用pymedia和pyqt4写的一个音乐播放器

这段时间一直在忙论文,很少时间写代码了,不过还是挤出点时间,整理了一下材料写了一个小的音乐播放器. 本来一直使用wxpython,但是考虑到以后工作了要使用qt,就转到pyqt了.以前也总使用 ...

iOS6.1再曝安全漏洞不需输密码就可解锁

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 北京时间2月15日,据外国媒体报道,苹果最新版 iOS ...

奥巴马成为美国历史上第一位会编程总统

奥巴马成为美国历史上第一位会编程总统美国总统奥巴马最近活动频繁,多次登上科技媒体的报道.他先是决定将会为警察配备随身摄像机,之后还签署了电子标签法案,今天,他又作出了一件在美国历史上具有里程碑意义的 ...

2015产品校招经验分享

2015产品校招经验分享时间:2014-10-17 23:09 来源:互联网的一些事作者:TR 10月17日一些事晚报 | 汇总今日最热资讯 1.[2015产品校招经验分享(阿里百度360等多 ...

热搜