见微知著,从细节处提升词向量的表示能力 | 论文访谈间 #10

词向量是将词映射到低维空间进行表示的一种方法,它可以降低输入信息的稀疏性,同时赋予表示向量一定的词义。作为 NLP 领域的一项基本任务,词向量扮演着十分重要的角色,它为机器翻译,自动问答,对话系统等提供了一个较为准确的单词表达形式。但是词的意思是多种多样的,在不同的情境下会有不同的意义,如何能够更准确地表示出词的意义,对 NLP 领域中的其他任务来说具有重要的意义。来自清华大学的牛艺霖,谢若冰,刘知远老师和孙茂松老师发表在 ACL2017 上的论文“Improved Word Representation Learning with Sememes”首次将义原信息考虑到词向量的学习任务中,在很大程度上提升了词向量的表示能力。

义原信息(sememe)是词意的最小语义单位,一个词的意思可以认为是多个义原信息的组合。在 HowNet 中,可以具象化出这种 word-sense-sememe 的结构,如下图所示:

其中苹果是我们的目标单词,sense1、sense2 是苹果的两个不同意思,而 sememe 分别解释了两个 sense 的具体含义。

从这个例子我们可以看出,一个词的意思和他的义原之间的关系是比较复杂的,可能只有一种描述,也可能是多种的一个组合,那么如何利用这些信息去表示词的意思,如何模拟词义和义原之间的关系就成为本文工作的最主要的一个挑战。

本文是在经典的 skip-gram 模型的基础上提出来的改进模型,相对于 skip-gram 模型只考虑了上下文信息,本文提出的模型同时考虑词的义原信息以及义原信息与词义之间的关系,为此,本文提出了三种融合方法。

1. 简单地使用义原向量的平均值来表示一个词向量,就如上图,将样式值,能,携带,特定牌子等的向量表示求平均,作为电脑这个意思的平均表示。

2. 根据中心词来对一个上下文单词做消歧,使用 attention 的方法来计算这个单词的各个 sense(意思)的权重,使用 sense embedding 的加权平均值来表示词向量。

将注意力机制引入到模型中,从而可以辅助训练过程中的消歧。也就是说如果一个上下文词的某个义原跟中心词的意思更加相近,那么他就获得更多的关注,从而在生成上下文词的向量表示时,这个义原的权重就会越大,而最终生成的上下文词向量也就具有更好的表达能力。所以这个模型也称之为上下文模型(context model)。

3. 和上个方法类似,只不过是这次是使用上下文单词预测中心词的含义。

同样的,一个词的意思跟它所处的上下文环境息息相关,那么上下文环境也就决定了这个词表示的到底是那种意思,因此这里通过利用上下文信息对中心词的义原信息的关注程度,从而选择出符合情境的义原信息,为中心词表示的生成提供必要的辅助,也就提升了中心词的向量表示能力,因此这个模型也被称之为目标模型(target model)。

在实验设计上,本文通过两个经典的评价词向量质量的任务:词的相似性实验和词的类比实验对模型进行了验证, 同时与当前流行的 CBOW,skip-gram 和 GloVe 模型进行了对比,结果发现本文提出的模型在两个任务上均优于对比方法,这也证实了将义原信息融入到词向量的表示学习中的有效性。

同时,为了进一步验证模型在词义消歧方面的能力,本文选取了一些实例进行分析:

从例子中可以看出在不同的情境下,模型均能根据实际意思选取出合适的意义,这也证实了本文提出的模型可以在不同的情境中很好的获取词的意思。

作者有话说:

第一次写文章,作者感觉跟高考差不多,首先,都需要做大量的前期准备,只有充分的准备,才能对自己研究的内容有比较深刻的了解,才能清楚明白的阐释出自己的想法;其次,deadline(考前)一两天整个人都会陷入一种焦躁的状态,觉得自己写的都是什么东西,但又不得不继续准备;再次,交稿后(高考后)会突然觉得世界都清静 了,只想安静的休息会;最后,也就是揭榜时,这个心情想必大家都有体会。 

更深的体会就是:写文章,做科研是一个探索的过程,不断地去实验,去分析,去探索,终会发现十分有意思的东西。

来源:paperweekly

原文链接

时间: 2024-10-01 23:14:42

见微知著,从细节处提升词向量的表示能力 | 论文访谈间 #10的相关文章

PaperWeekly 第52期 | 更别致的词向量模型:Simpler GloVe - Part 1

如果问我哪个是最方便.最好用的词向量模型,我觉得应该是 word2vec,但如果问我哪个是最漂亮的词向量模型,我不知道,我觉得各个模型总有一些不足的地方.且不说试验效果好不好(这不过是评测指标的问题),就单看理论也没有一个模型称得上漂亮的. 本文讨论了一些大家比较关心的词向量的问题,很多结论基本上都是实验发现的,缺乏合理的解释,包括: 如果去构造一个词向量模型? 为什么用余弦值来做近义词搜索? 向量的内积又是什么含义? 词向量的模长有什么特殊的含义? 为什么词向量具有词类比性质?(国王-男人+女

PaperWeekly 第53期 | 更别致的词向量模型:Simpler GloVe - Part 2

  前言 本文作者在更别致的词向量模型:Simpler GloVe - Part 1一文中提出了一个新的类似 GloVe 的词向量模型 - Simpler GloVe. 本期我们将带来该系列的后半部分,包括对该词向量模型的详细求解.结果展示,以及代码和语料分享.  模型的求解 损失函数 现在,我们来定义 loss,以便把各个词向量求解出来.用 P̃ 表示 P 的频率估计值,那么我们可以直接以下式为 loss: 相比之下,无论在参数量还是模型形式上,这个做法都比 GloVe 要简单,因此称之为 S

国王-男人+女人=皇后,背后的词向量工作原理

更多深度文章,请关注: https://yq.aliyun.com/cloud 作者介绍:PiotrMigdał - 一个数据科学自由职业者,拥有量子物理学博士学位,位于波兰华沙,积极参与资优教育,开发量子游戏,并在deepsense.io担任数据科学教师.目前专注于深度学习. 介绍 word2vec是将单词转换为向量的算法,该算法使得具有相似含义的单词表示为相互靠近的向量.此外,它能让我们使用向量算法来处理类比,例如着名等式 king - man + woman = queen 本文我将尝试解

哪种词向量模型更胜一筹?Word2Vec,WordRank or FastText?

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 作者介绍: Parul Sethi,undergrad of Maths and IT at CIC, University of Delhi. RaRe Incubator Student.      在众多词嵌入(有的也称作词向量)模型中选择一个合适的模型是很困难的任务,是选择NLP常用的Word2Vec还是其他模型?      如图1所示,用WordRank,Word2Vec和FastText三种模型分

第2期Talk实录 | 词向量的几何分布及其应用

[ Q & A ] 本次 Talk 中涉及的三篇 paper 如下: https://arxiv.org/abs/1702.01417 https://arxiv.org/abs/1611.09799  https://arxiv.org/abs/1610.07569 请问穆博士,您能详细的讲一下 subspace representation 的方法吗? 穆佳琦:感谢提问!首先将所有词的 vector 堆叠成一个矩阵,提取这个矩阵的若干个(3-5)主成分,然后这几个主成分对应的 vector

秒懂词向量Word2vec的本质

1. Word2vec参考资料总结 (以下都是我踩过的坑,建议先跳过本节,阅读正文部分,读完全文回头再来看) 先大概说下我深挖 word2vec 的过程:先是按照惯例,看了 Mikolov 关于 Word2vec 的两篇原始论文,然而发现看完依然是一头雾水,似懂非懂,主要原因是这两篇文章省略了太多理论背景和推导细节:然后翻出 Bengio 03年那篇JMLR和 Ronan 11年那篇JMLR,看完对语言模型.用CNN处理NLP任务有所了解,但依然无法完全吃透 word2vec:这时候我开始大量阅

用深度学习来获取文本语义: 词向量应用于自然语言处理

◆ ◆ ◆ 序 词向量是一种把词处理成向量的技术,并且保证向量间的相对相似度和语义相似度是相关的.这个技术是在无监督学习方面最成功的应用之一.传统上,自然语言处理(NLP)系统把词编码成字符串.这种方式是随意确定的,且对于获取词之间可能存在的关系并没有提供有用的信息.词向量是NLP领域的一个替代方案.它把词或短语映射成实数向量,把特征从词汇表大小的高维度空间降低到一个相对低的维度空间. 例如,让我们看看四个词:"woman"(女人)."man"(男人)."

斯坦福深度学习课程第二弹:词向量内部和外部任务评价

像追美剧一样追课程! 大数据文摘已获斯坦福大学深度学习课程CS224d翻译授权, 重磅启动"斯坦福深度学习课程CS224d"的翻译工程, 所有译文将会免费发布,计划每周发布1篇. 期待你的加入,加入要求见文末 报名请点击文末"阅读原文". 大数据文摘作品,转载需授权 翻译:熊杰 王昱森   调整校对:寒小阳 龙心尘 特别鸣谢:曾宪超 大数据文摘"机器学习"专栏介绍 本文为大数据文摘机器专栏推出的[数据科学/机器学习]学习分享项目启动篇,我们将以S

深度学习和自然语言处理:诠释词向量的魅力

以下为译文: 今天的帖子,我收集的材料源于五篇论文.本次的主题是"word2vec",主要是总结了Google公司的Mikolov等人关于词向量的工作(以及你可以用它做什么).论文分别是: ·       Efficient Estimation of Word Representations in Vector Space – Mikolov et al. 2013 ·       Distributed Representations of Words and Phrases an