心慕手追,让机器像人一样理解句子 | 论文访谈间 #14

学习句子的语义表示就是将句子的含义映射到一个向量空间中,同时保留句子本身的一些特性,例如:表达相似含义的句子在向量空间中应该距离更近。而句子表示模型是将句子的含义编码为计算机可以理解的形式,这是解决大部分自然语言处理问题的先决条件,因此直接影响了许多自然语言处理任务的性能,如在神经机器翻译中需要首先将源语言句子表示为一个向量、在问答系统中需要将问句和答案编码为向量表示等。

但是句子是由不同的词构成的,不同的词包含的信息量不同,对句子的语义表示影响也就不同。如何能区分出这些词汇,给予重要的词更多的注意力,对句子语义的表示有着重要的意义,同时也有助于机器对句子语义的理解。来自中国科学院自动化研究所的王少楠,张家俊和宗成庆老师发表在国际人工智能联合会议(IJCAI)上的文章“Learning Sentence Representation with Guidance of Human Attention”通过对人类阅读和句子理解机制的模仿,找到了一种新的编码句子语义的方法。

在理解句子语义方面,人类无疑是机器最好的老师,那么人类是如何阅读和理解句子的呢?由于组成句子的词所包含的信息量不同,因此人类在阅读和理解句子时会选择性的注意句子中的某些词汇,也会选择性的跳读一些词汇,这种注意力机制(图 1)让人阅读和理解句子变得更加高效。

▲ 图1:人类阅读过程中的眼动(注意力)轨迹

受人类注意力机制的启发,作者认为在构建句子表示时应该给重要的词汇赋予较高的权重,这样可以得到更好的句子语义表示。那么哪些词汇对句子含义的表达更重要呢?同样我们从人类阅读文本时的注意力分布寻找答案,大量的有关人类阅读时间的研究证明了词汇的特性,如词性、词长、词频、词汇惊异度(Surprisal)等,都会影响人类阅读文本时对这个词汇的关注程度。因此,作者选择了词汇惊异度和词汇的词性来对词汇的重要程度进行建模。

  • 词汇惊异度:反应了一个单词在一个句子中传达的信息量,由词汇在句子中的负对数条件概率计算得到,通常这个值越高表示理解这个词越困难,需要更多的阅读时间。
  • 词汇的词性:词的不同分类属性,例如:动词,名词,形容词,介词,连词等。心理学实验已经证实,人类在阅读文本时会更加注意如名词、动词、形容词等类型的词汇,而在如介词和连词等词汇上会花费较少的时间。

对于以上两种特征,作者分别提出了不同的词汇重要性计算方法,针对词汇惊异度特征,作者直接将它的数值作为词汇的重要性分数;针对词汇词性特征,作者通过赋予每个词汇类别一个向量表示,通过类别向量与对应的词汇向量进行点乘,然后归一化,将得到的结果作为这个词的注意力权重,最后将通过注意力机制的词的加权表示送给当前最好的句子表示模型(图 2)中,得到句子的语义表示。

▲ 图2:嵌入注意力机制的句子表示模型

在实验设计上,作者利用 semantic textual similarity(STS)任务中的 24 个覆盖新闻,图片视频描述,注解,机器翻译评估等领域的数据集对模型进行了验证,结果证实了作者提出的方法可以更加准确有效的获得句子的语义表示。同时,这种方法是通过对人类阅读理解句子的方式的模仿,因此该模型学习到的注意力分布是否与人类的注意力分布类似呢?作者在 Dundee 语料(一种研究人类阅读和眼动轨迹的数据集)上进行了验证,实验结果(图 3)显示模型计算出的注意力权重与人类的阅读时间规律高度相似,这就证实了作者提出的模型成功模仿了人类的阅读理解方式。

▲ 图3:人类阅读时间和模型计算的注意力权重对比结果

作者有话说:


这篇文章的出发点很简单,由于目前在句子表示中的注意力机制与人类阅读和理解句子的注意力机制不相符,我就想去尝试能不能利用人类阅读过程中的注意力机制去改进现有的句子表示模型。这个工作最大的创新性在于结合了认知心理学的一些研究结论,通过返回的审稿意见,我发现这种研究思路是很受欢迎和认可的。目前,在自然语言处理领域越来越多的人开始尝试利用人类理解语言的机制来改进或者建立语言处理模型,相信这种跨领域的结合会带来意想不到的惊喜!

来源:paperweekly

原文链接

时间: 2024-12-08 17:45:35

心慕手追,让机器像人一样理解句子 | 论文访谈间 #14的相关文章

如何让机器拥有人类的智慧?| 论文访谈间 #09

在神经机器翻译(Neural Machine Translation, NMT)中,由于机器不具有人类的智慧,因此常常会犯一些低级的错误.例如,在中-英翻译中,原中文句子含有 10 个词,而机器却有时翻译出一个含有 50 个词的句子或者是只含有 2 个词的句子. 不管内容如何,在人类看来这样的翻译很显然是不对的.那么如何能让机器拥有人类的智慧,从而避免这种低级的错误呢?近日,我们有幸采访到了清华大学的张嘉成,介绍他发表在 ACL2017 上的工作 - Prior Knowledge Integr

“嘿,机器,你是怎么做好翻译的呀?” “来,我画给你看!” | 论文访谈间 #01

如果有一个功能神奇的"黑箱子",你想不想打开它,好好研究一番?神经机器翻译就是这么一个"黑盒",只要给它一句中文,就能将对应的英文顺利地翻译出来,如何才能一探其中的究竟呢?清华大学的丁延卓同学.刘洋老师.栾焕博老师和孙茂松老师在今年 ACL2017 上的工作就将这其中的奥秘"画给你看". 近年来,深度学习快速发展,神经机器翻译(Neural Machine Translation)方法已经取得了比传统的统计机器翻译(Statistical Mac

层叠注意力模型 - 实现机器阅读的正确姿势 | 论文访谈间 #04

通过搜索引擎我们可以轻松获取到海量的知识,可我们通常不会觉得一台电脑"知识渊博"--计算机并不理解这些知识,只能给你一系列相匹配的检索结果.在我们眼中,计算机更像是一座高级的图书馆,而不是一位能理解你所想所问的博学之士. 好消息是这一点正在逐渐改善.机器阅读理解,一项致力于教会机器阅读人类的语言并理解其内涵的研究,作为目前自然语言处理领域中的热门方向受到了广泛关注.与传统的问答系统不同的是,阅读理解任务更注重于对于篇章文本的理解,机器必须自己从篇章中学习到相关信息,而不是利用预设好的世

别躲了,机器知道你们的关系 | 论文访谈间 #05

每天人们都在和形形色色的社交网站打交道,微信,微博,知乎等等.在不同的社交网站上,人们通过加好友,关注,互粉等功能建立了联系,形成了一张张巨大的社交网络.而在这些联系背后,往往蕴含着不同的含义.例如,很多原因可能使得我们成为社交网络上的好友:亲人关系,朋友关系,同事关系,或者仅仅是有着相同的兴趣爱好.如同在生活中一样,在社交网络上,我们也扮演着不同的角色,与他人维系着不同的关系.那么,机器如何能分辨出扮演不同角色的你?又如何知道你们之间不同的关系呢?今天,ACL2017 上清华大学涂存超博士等人

玩无人机,机器和人差多远?

这是一场用实际数据说明,机器和人相差多远的比赛. (IROS 2017无人机竞速表演环节,荷代尔夫特理工大学选手在尝试FPV操作) 在雷锋网(公众号:雷锋网)看来,IROS 2017的无人机竞速比赛的"考题"要比IROS 2016要略简单一些,但仍然没有哪支队伍成功穿越全部13个门,最终的冠军队伍也不过穿过了9个门,成绩为3分11秒:而在正式比赛结束后的有操控表演中,一位带着VR眼镜的选手用46秒就穿越了全部13个门.而我们知道,FPV(First Person View)无人机视角要

方三文撤掉雪球内容团队:UGC社区完全让机器替代人?

中介交易 SEO诊断 淘宝客 云主机 技术大厅 方三文在微博上回应这篇文章:欲练神功,挥刀自宫... [导读]雪球财经旗下的 i 美股大刀阔斧地撤掉了原有内容团队,机器算法完全取代了原先的人工编辑机制.在产品技术化道路上一去不回头的雪球如何继续"滚"下去? "满足投资者需求的互联网一站式解决方案一般包括三个方面:交流,产品社区功能;查询,产品数据功能;交易,产品增值功能.而雪球选择社区作为这种解决方案的切入点."方三文如此解释自己创办的社交投资网站雪球.今年 6 月

机器人产业临界点:“机器”向“人”转变

"前50年机器人重点发展的是前两个字--"机器",今天的发展开始真正进入到最后一个字--"人"的发展,此外机器人不光是向人的形状在发展,而是包含了人的智能.人的智慧.我认为现在的机器人产业正处在机器向人发展的临界点上."新松机器人自动化股份有限公司总裁曲道奎教授在由"中关村融智特种机器人联盟"."RT创投咖啡"联合主办的<机器人大讲堂>上如是说. 新松机器人自动化股份有限公司总裁曲道奎教授 &q

过分依赖和沉迷于网络可能降低人的理解和认知能力

http://www.aliyun.com/zixun/aggregation/35043.html">克罗地亚研究人员最近发现,过分依赖和沉迷于网络,可能降低人的理解和认知能力.克罗地亚奥西耶克大学哲学院在对超过1000名公民的跟踪调查表明,网络化的生活方式正在为大众接受,由此带来的问题正在显现. 调查发现,有44%的克罗地亚人在过去一年内没有读过一本纸质书,而把时间花费在互联网上.连电子书都没有读过的人超过20%.尽管网络为阅读电子书带来了方便,但大多数受访者表示,由于用电脑和手机长时

马云乌镇致辞:技术革命最终应该机器更像机器、人更像人

"如果说过去20年互联网'从无到有',那么未来30年,互联网将'从有到无',这个'无'是'无处不在'的'无',没有人能够离开网络而存在."今日(3日)上午,第四届世界互联网大会在乌镇开幕,阿里巴巴董事局主席马云在开幕式致辞时表示,对数字经济和网络空间与其担心,不如担当. 马云向全场的互联网企业家倡议:今天的互联网企业是时代的宠儿,获得了从来没有过的机遇和财富,但更重要的是应该担当从来没有遇到过的巨大责任,因此互联网公司应该靠不断创新赢得市场,要靠担当.共享和普惠精神赢得尊重.  这是马