第2期Talk实录 | 词向量的几何分布及其应用

[ Q & A ]

本次 Talk 中涉及的三篇 paper 如下:

https://arxiv.org/abs/1702.01417

https://arxiv.org/abs/1611.09799 

https://arxiv.org/abs/1610.07569

请问穆博士,您能详细的讲一下 subspace representation 的方法吗?

穆佳琦:感谢提问!首先将所有词的 vector 堆叠成一个矩阵,提取这个矩阵的若干个(3-5)主成分,然后这几个主成分对应的 vector 就是 subspace 的基底。

不同的句子有不同的长度,形成 subspace 之前是否需要对句子做了定长的处理?

穆佳琦:不同的句子的确有不同的长度,但是正如@枯草所说,subspace/average/rnn 的办法均不需要对句子做定长的处理。

请问在消歧任务中,一个词在不同的 context 下是生成了不同的向量么?

穆佳琦:因为 word2vec 对多义词的表述并不准确,在消歧过程中我们并没有使用多义词本身的 vector,而是使用的除去这个多义词之外其他 context words 的 vectors。

你好,刚刚说到的分组 k 的值一般选 5,是经验得到的吗?

穆佳琦:感谢提问!对,是经验得到的。具体是基于 semeval WSI 2010 这个 share task选的参数。

一词多义的表示扩展到短语级别的话有哪些挑战呢?

穆佳琦:短语级别的话需要额外解决另外一个问题:什么样的短语是多义的。如果给定多义的短语的话,那么剩下的操作几乎是相同的。

通过循环迭代的方式能使词义一词多义的效果提升多少呢,感觉 k 的设定已经限制了多于 k 个意思的词的多义表示,迭代的方式是不是可以使得少于 k 个词义的词取得更好的表现,谢谢!

穆佳琦:迭代表示我们只是做了一个初步的实验,实验中我们只迭代了一次且 K 的值选的 2。通常而言(包括一些通信系统),具体实现一个非常好的迭代系统需要 tune 很多的参数,包括但不仅限于:什么时候终止,什么时候剪枝,怎么进行合并。

这种将句子用一个平面来表示的方法是不是比较适合长句子,即 context 信息比较丰富的场景,对于短文本会不会效果提升就不明显了?

穆佳琦:对,实验也说明 subspace 的办法针对长句子比较有利。主要是短句子中词本来就少,那么取平均的话每个词分的的权重还是比较大,所以有用的信息并没有太多损失。

请问使用 word2vec 训练出来的词向量,目前有什么比较靠谱的方式用作句子向量或者文档向量呢?

穆佳琦:稍后会上传 slides,里面有 cite 几篇我觉得很不错的相关的 paper。请查阅哈。

请问当歧义词出现在不同的句子中时,这些句子对应的平面一定会相交么?这种特性有没一种直观的解释?

穆佳琦:这里“相交”的定义比较宽泛 - 由于噪声的影响,三个平面完全相交都是几乎不可能的。我们只希望存在一个 unitvector 距离所有的 subspace 都很接近。这种特性是基于最初 subspace 的假设的。假如我们考虑同义词,那么这个同义词应该在 context1 对应的 subspace 中,context2 对应的 subspace 中... 那么这个同义词的所有 subspace 都会和这个同义词的 vector 很接近,恢复 intersection 就可以近似地恢复这个同义词的 representation。同理,假设 polysemy 的每一个 sense 都有一个 representation,那么这个 sense vector 就距离它对应所有的 subspace 很近,也就是这些 subspace 近似相交了。

subspace 表示怎么和神经网络结合?比如要做个情感分类,那么把句子表示成 vector 是一个很自然的选择。但表示 subspace 后该如何进行后续分析呢?

穆佳琦:subspace 本身和 supervised task 的结合是我们目前正在研究的问题。之前如果用 vector 表示的话,把 vectors 作为 nn 的输入是一个比较显然的方式。同样的,我们也可以把 subspace 的基底作为 nn 的输入,但是这样做没有完全利用到 subspace 的性质。具体怎么结合我们还没有一个明确的答案。

请问下在某个方向上的能量是怎么计算的,这个信息量的几何意义是什么?

穆佳琦:某个方向上的能量就是 PCA 中定义的 variance ratio。它可以认为是所有 sample 在当前方向上的投影的平方和。

各种 sentence representation 方法能否用到非 sentence 的序列数据上,比如软件操作序列等用户行为序列数据上,如果能的话有哪些挑战,如果不能的话原因是什么?谢谢!

佳琦:如果作用到非 sentence 的序列上,那么需要先解决如下的问题:1. 怎么对 action 进行 vector 的表示,按照 word embedding 生成的 vector 是否具有语义信息;2. 怎么理解这个 sequence,如果要使用现有的 sequence representation 的方式的话,相应的模型是否合理。因为我没有对非 language 的问题研究过,所以具体会遇到什么问题我也不太方便解答。不过@奕伟的提议非常不错,可以先试试有没有比较好的效果。

不同的句子有不同的长度,形成 subspace 之前是否需要对句子做了定长的处理?

佳琦:不同的句子的确有不同的长度,但是正如@枯草所说,subspace/average/rnn 的办法均不需要对句子做定长的处理。

请问穆博士,word2vec 训练出来的词向量是不是可以理解为带有一定上下文结构信息的向量(跟窗口大小有关),但是我们把训练出来的词向量作为其它任务的输入或者处理加权等相关处理不就破环了原本的结构信息吗?

佳琦:词向量本身是对词的建模,不对它进行后续处理的话词向量本身的作用就极其有限了。你可以认为词向量是词的 feature,也可以认为是后续 application 中的 pretrained parameters。

来源:paperweekly

原文链接

时间: 2024-09-21 20:55:05

第2期Talk实录 | 词向量的几何分布及其应用的相关文章

PaperWeekly 第52期 | 更别致的词向量模型:Simpler GloVe - Part 1

如果问我哪个是最方便.最好用的词向量模型,我觉得应该是 word2vec,但如果问我哪个是最漂亮的词向量模型,我不知道,我觉得各个模型总有一些不足的地方.且不说试验效果好不好(这不过是评测指标的问题),就单看理论也没有一个模型称得上漂亮的. 本文讨论了一些大家比较关心的词向量的问题,很多结论基本上都是实验发现的,缺乏合理的解释,包括: 如果去构造一个词向量模型? 为什么用余弦值来做近义词搜索? 向量的内积又是什么含义? 词向量的模长有什么特殊的含义? 为什么词向量具有词类比性质?(国王-男人+女

PaperWeekly 第53期 | 更别致的词向量模型:Simpler GloVe - Part 2

  前言 本文作者在更别致的词向量模型:Simpler GloVe - Part 1一文中提出了一个新的类似 GloVe 的词向量模型 - Simpler GloVe. 本期我们将带来该系列的后半部分,包括对该词向量模型的详细求解.结果展示,以及代码和语料分享.  模型的求解 损失函数 现在,我们来定义 loss,以便把各个词向量求解出来.用 P̃ 表示 P 的频率估计值,那么我们可以直接以下式为 loss: 相比之下,无论在参数量还是模型形式上,这个做法都比 GloVe 要简单,因此称之为 S

深度学习和自然语言处理:诠释词向量的魅力

以下为译文: 今天的帖子,我收集的材料源于五篇论文.本次的主题是"word2vec",主要是总结了Google公司的Mikolov等人关于词向量的工作(以及你可以用它做什么).论文分别是: ·       Efficient Estimation of Word Representations in Vector Space – Mikolov et al. 2013 ·       Distributed Representations of Words and Phrases an

国王-男人+女人=皇后,背后的词向量工作原理

更多深度文章,请关注: https://yq.aliyun.com/cloud 作者介绍:PiotrMigdał - 一个数据科学自由职业者,拥有量子物理学博士学位,位于波兰华沙,积极参与资优教育,开发量子游戏,并在deepsense.io担任数据科学教师.目前专注于深度学习. 介绍 word2vec是将单词转换为向量的算法,该算法使得具有相似含义的单词表示为相互靠近的向量.此外,它能让我们使用向量算法来处理类比,例如着名等式 king - man + woman = queen 本文我将尝试解

哪种词向量模型更胜一筹?Word2Vec,WordRank or FastText?

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 作者介绍: Parul Sethi,undergrad of Maths and IT at CIC, University of Delhi. RaRe Incubator Student.      在众多词嵌入(有的也称作词向量)模型中选择一个合适的模型是很困难的任务,是选择NLP常用的Word2Vec还是其他模型?      如图1所示,用WordRank,Word2Vec和FastText三种模型分

见微知著,从细节处提升词向量的表示能力 | 论文访谈间 #10

词向量是将词映射到低维空间进行表示的一种方法,它可以降低输入信息的稀疏性,同时赋予表示向量一定的词义.作为 NLP 领域的一项基本任务,词向量扮演着十分重要的角色,它为机器翻译,自动问答,对话系统等提供了一个较为准确的单词表达形式.但是词的意思是多种多样的,在不同的情境下会有不同的意义,如何能够更准确地表示出词的意义,对 NLP 领域中的其他任务来说具有重要的意义.来自清华大学的牛艺霖,谢若冰,刘知远老师和孙茂松老师发表在 ACL2017 上的论文"Improved Word Represent

秒懂词向量Word2vec的本质

1. Word2vec参考资料总结 (以下都是我踩过的坑,建议先跳过本节,阅读正文部分,读完全文回头再来看) 先大概说下我深挖 word2vec 的过程:先是按照惯例,看了 Mikolov 关于 Word2vec 的两篇原始论文,然而发现看完依然是一头雾水,似懂非懂,主要原因是这两篇文章省略了太多理论背景和推导细节:然后翻出 Bengio 03年那篇JMLR和 Ronan 11年那篇JMLR,看完对语言模型.用CNN处理NLP任务有所了解,但依然无法完全吃透 word2vec:这时候我开始大量阅

词向量的运用-用词向量理解词组的含义

之前花了5篇介绍了word2vec的方法.词向量最大的意义是把原来的字符串变成了一个数字形式的向量,也就是说现在词和图像变得非常相近,因为图像也就是例如255*255的像素点,而每个像素也是一个数字.因此,词向量被很多任务作为初始的输入,从这开始,我将以轻松的形式来介绍词向量的运用场景. = 本着先进性的原则,我会介绍最新的16年的论文,以较轻松的形式.今天分析这篇:用词向量理解词组的含义http://aclweb.org/anthology/Q/Q16/Q16-1002.pdf Key Ide

java-利用word2vec进行词向量训练内存溢出问题

问题描述 利用word2vec进行词向量训练内存溢出问题 请问大家一下: 利用word2vec进行词向量进行训练时,所用语料进行分词后,还需要去除标点符号吗?我利用搜狗新闻语料(分词后2.09G)进行词向量训练时,出现Exception in thread "main" java.lang.OutOfMemoryError: Java heap,我设置了jvm heap的大小,还是出现这个错误,该怎么解决呢?谢谢解答!** 解决方案 内存设置还是太小,我使用这个参数 -Xmx6048M