Distributed Representations of Sentences and Documents

继分享了一系列词向量相关的paper之后,今天分享一篇句子向量的文章,Distributed Representations of Sentences and Documents,作者是来自Google的Quoc Le和Tomas Mikolov,后者也是Word2Vec的作者。

用低维向量表示了word之后,接下来要挑战地就是表示句子和段落了。传统的表示句子的方式是用词袋模型,每个句子都可以写成一个特别大维度的向量,绝大多数是0,不仅没有考虑词序的影响,而且还无法表达语义信息。本文沿用了Word2Vec的思想,提出了一种无监督模型,将变长的句子或段落表示成固定长度的向量。不仅在一定上下文范围内考虑了词序,而且非常好地表征了语义信息。

首先简单回顾下word2vec的cbow模型架构图:

给定上下文the cat sat三个词来预测单词on。

与cbow模型类似,本文提出了PV-DM(Distributed Memory Model of Paragraph Vectors),如下图:

不同的地方在于,输入中多了一个paragraph vector,可以看做是一个word vector,作用是用来记忆当前上下文所缺失的信息,或者说表征了该段落的主题。这里,所有的词向量在所有段落中都是共用的,而paragraph vector只在当前paragraph中做训练时才相同。后面的过程与word2vec无异。

topic也好,memory也罢,感觉更像是一种刻意的说辞,本质上就是一个word,只是这个word唯一代表了这个paragraph,丰富了context vector。

另外一种模型,叫做PV-DBOW(Distributed Bag of Words version of Paragraph Vector),如下图:

看起来和word2vec的skip-gram模型很像。

用PV-DM训练出的向量有不错的效果,但在实验中采用了两种模型分别计算出的向量组合作为最终的paragraph vector,效果会更佳。在一些情感分类的问题上进行了测试,得到了不错的效果。

本文的意义在于提出了一个无监督的paragraph向量表示模型,无监督的意义非常重大。有了paragraph级别的高效表示模型之后,解决类似于句子分类,检索,问答系统,文本摘要等各种问题都会带来极大地帮助。

来源:paperweekly

原文链接

时间: 2024-11-03 08:19:44

Distributed Representations of Sentences and Documents的相关文章

Learning Distributed Representations of Sentences from...

sentence representation的文章已经分享了几篇,包括了supervise和unsupervise的方法,但并没有对各种model进行系统地对比和分析,今天分享的这篇文章对现有各种各样的distributed representations of sentences model进行了分类.对比和分析,为了增强对比效果,还提出了两种虚拟的模型.最后将所有的模型在supervised和unsupervised评价任务中进行对比,得出了一些有意义的结论.本文的题目是:Learning

PaperWeekly 第二十七期 | VAE for NLP

引言 提及 Generative Models,Variational Autoencoder (VAE) 和 GAN 可以说是两座大山头.二十四期的「GAN for NLP」一文中对 GAN 在 NLP 中的进展做了详细的介绍,推荐错过的朋友不要再错过.虽然 GAN 在图像生成上效果显著(当然 VAE 也很强),但在 NLP 方面暂时还是 VAE 较为 work.今天的分享作为姊妹篇(捂脸),对 VAE 在 NLP 的应用里最具有代表性的几篇 paper 进行介绍.我会尽量梳理论文之间的联系,

秒懂词向量Word2vec的本质

1. Word2vec参考资料总结 (以下都是我踩过的坑,建议先跳过本节,阅读正文部分,读完全文回头再来看) 先大概说下我深挖 word2vec 的过程:先是按照惯例,看了 Mikolov 关于 Word2vec 的两篇原始论文,然而发现看完依然是一头雾水,似懂非懂,主要原因是这两篇文章省略了太多理论背景和推导细节:然后翻出 Bengio 03年那篇JMLR和 Ronan 11年那篇JMLR,看完对语言模型.用CNN处理NLP任务有所了解,但依然无法完全吃透 word2vec:这时候我开始大量阅

Semi-supervised Sequence Learning

之前分享过几篇有监督的sentence表示方法,比如Recurrent Convolutional Neural Networks for Text Classification.Convolutional Neural Networks for Sentence Classification,也分享过很多几篇无监督的sentence表示方法,比如Distributed Representations of Sentences and Documents.Skip-Thought Vectors

PaperWeekly 第五期

Word2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小.形形色色的DL模型在表示词.短语.句子.段落等文本要素时都需要用word2vec来做word-level的embedding.Word2Vec的作者Tomas Mikolov是一位产出多篇高质量paper的学者,从RNNLM.Word2Vec再到最近流行的FastText都与他息息相关.一个人对同一个问题的研究可能会持续很多年,而每一年的研究成果都可能会给同行带来新的启发,本期的PaperWeekly将会分享其中

(zhuan) Recurrent Neural Network

  Recurrent Neural Network  2016年07月01日  Deep learning  Deep learning 字数:24235   this blog from: http://jxgu.cc/blog/recent-advances-in-RNN.html    References Robert Dionne Neural Network Paper Notes Baisc Improvements 20170326 Learning Simpler Langu

awesome-nlp

  awesome-nlp  A curated list of resources dedicated to Natural Language Processing Maintainers - Keon Kim, Martin Park Please read the contribution guidelines before contributing. Please feel free to pull requests, or email Martin Park (sp3005@nyu.e

(转)word2vec前世今生

  word2vec 前世今生   2013年,Google开源了一款用于词向量计算的工具--word2vec,引起了工业界和学术界的关注.首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练:其次,该工具得到的训练结果--词向量(word embedding),也是很多NLP任务的基础.随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法.其实,读了Mikolov在2013年发表的论文[1][2]就会知道,w

GitHub项目:自然语言处理领域的相关干货整理

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为NLP初学者整理了一份庞大的自然语言处理领域的概览.选取的参考文献与资料都侧重于最新的深度学习研究成果.这些资源能为想要深入钻研一个NLP任务的人们提供一个良好的开端. 指代消解 https://github.com/Kyubyong/nlp_tasks#coreference-resolution 论文自动评分 论文:Automatic Text Scoring Using Neur