GloVe: Global Vectors for Word Representation

Word2Vec虽然取得了很好的效果,但模型上仍然存在明显的缺陷,比如没有考虑词序,再比如没有考虑全局的统计信息。本篇分享的是GloVe: Global Vectors for Word Representation,作者是stanford的Jeffrey Pennington, Richard Socher(metamind CEO)和Christopher Manning。同时作者还开源了相应的工具GloVe和一些训练好的模型。

本文的思路是将全局词-词共现矩阵进行了分解,训练得到词向量。整体上的思路和推荐系统当年横扫Netflix百万美元比赛的LFM模型类似,也和信息检索中LSI的思路类似。不同的地方是,本文采用的词-词共现矩阵比起词-文档矩阵更加稠密,模型中对低频词和高频词的影响做了一定地弱化处理。

首先,构建词-词共现矩阵,共现是建立在一个固定窗口范围内,给定范围之后,可以得到一个V*V的矩阵,这里V是词汇表大小。(虽然矩阵的稠密程度比词-文档矩阵好一些,但大多数也都是0)

然后,本文的模型如下:

通过使该目标函数最小来得到最终的词向量,在计算误差时只考虑共现矩阵中非0的项。因为不同频次的词对目标的贡献不同,所以设定了一个权重函数f(x),具有以下特点:

1、f(0) = 0

2、f(x)是增函数,这样低频词不会被over weight。

3、当x很大时,f(x)相对小一些,这样高频词也不会被over weight。

根据以上特性,选择下面的函数来作为f(x):

 

本文的模型在Word Analogy Task(Tomas Mikolov提出的测试集)中获得了75%的正确率,击败了Word2Vec。

虽然paper中GloVe有着指标上的领先,但在实际使用中Word2Vec的使用率相对来说更多一些,可能的原因是Word2Vec可以更快地提供一个相对来说不错的word embedding层的初始值。从中得到的启发是,指标上的胜利有些时候只是paper上的胜利,不一定能代表在工程中也是赢家,而只有更加好的model被提出,才会真正地既赢得指标上的胜利,也赢得工程上的胜利。

来源:paperweekly

原文链接

时间: 2024-08-02 14:59:07

GloVe: Global Vectors for Word Representation的相关文章

全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe

作者:Vineet John 机器之心编译 参与:吴攀.李亚洲.蒋思源 文本特征提取是自然语言处理的核心问题之一,近日,加拿大滑铁卢大学的 Vineet John 在 arXiv 发布了一篇关于用于文本特征提取的神经网络技术的综述论文.机器之心对该论文进行了编译介绍,论文原文可点击文末「阅读原文」查阅. https://arxiv.org/abs/1704.08531 本论文的目标是促进有关使用神经网络架构的文本特征提取技术的讨论.本论文中所讨论的研究问题关注的是当前最佳的神经网络技术,它们已经

GitHub项目:自然语言处理领域的相关干货整理

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为NLP初学者整理了一份庞大的自然语言处理领域的概览.选取的参考文献与资料都侧重于最新的深度学习研究成果.这些资源能为想要深入钻研一个NLP任务的人们提供一个良好的开端. 指代消解 https://github.com/Kyubyong/nlp_tasks#coreference-resolution 论文自动评分 论文:Automatic Text Scoring Using Neur

word2vec 超easy解读保证你看了就会(4)!

这次开始介绍word2vec的第二种实现,GloVe: Global Vectors for Word Representation.根据我目前的认知,从结果上来说(求解的模型),这个方法和goolge的word2vec其实几乎是一致.但是从过程上来说,看上去是有区别的. GloVe: Global Vectors for Word Representation 同之前介绍的一样,作者同样认为,一个词的表示可以由这个词的上下文决定.两个词的上下文类似,那么这两个词也就类似或者相关.先上表. 表中

(zhuan) Speech and Natural Language Processing

  Speech and Natural Language Processing obtain from this link: https://github.com/edobashira/speech-language-processing A curated list of speech and natural language processing resources. Other lists can be found in this list. If you want to contrib

awesome-nlp

  awesome-nlp  A curated list of resources dedicated to Natural Language Processing Maintainers - Keon Kim, Martin Park Please read the contribution guidelines before contributing. Please feel free to pull requests, or email Martin Park (sp3005@nyu.e

(转) An overview of gradient descent optimization algorithms

    An overview of gradient descent optimization algorithms     Table of contents: Gradient descent variantsChallenges Batch gradient descent Stochastic gradient descent Mini-batch gradient descent Gradient descent optimization algorithms Momentum Ne

见微知著,从细节处提升词向量的表示能力 | 论文访谈间 #10

词向量是将词映射到低维空间进行表示的一种方法,它可以降低输入信息的稀疏性,同时赋予表示向量一定的词义.作为 NLP 领域的一项基本任务,词向量扮演着十分重要的角色,它为机器翻译,自动问答,对话系统等提供了一个较为准确的单词表达形式.但是词的意思是多种多样的,在不同的情境下会有不同的意义,如何能够更准确地表示出词的意义,对 NLP 领域中的其他任务来说具有重要的意义.来自清华大学的牛艺霖,谢若冰,刘知远老师和孙茂松老师发表在 ACL2017 上的论文"Improved Word Represent

PaperWeekly 第五期

Word2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小.形形色色的DL模型在表示词.短语.句子.段落等文本要素时都需要用word2vec来做word-level的embedding.Word2Vec的作者Tomas Mikolov是一位产出多篇高质量paper的学者,从RNNLM.Word2Vec再到最近流行的FastText都与他息息相关.一个人对同一个问题的研究可能会持续很多年,而每一年的研究成果都可能会给同行带来新的启发,本期的PaperWeekly将会分享其中

谈谈谷歌word2vec的原理

word2vec 在NLP领域中,为了能表示人类的语言符号,一般会把这些符号转成一种数学向量形式以方便处理,我们把语言单词嵌入到向量空间中就叫词嵌入(word embedding).谷歌开源的word2vec则是这么一种词嵌入工具,它能生成词向量,通过词向量可以很好地度量词与词之间的相似性.word2vec采用的模型包含了连续词袋模型(CBOW)和Skip-Gram模型.通过它可以在大数据量上进行高效训练从而得到词向量. n-gram语言模型 在讨论词向量时先看NLP中很重要的统计语言模型,简单