词向量的运用-用词向量理解词组的含义

  之前花了5篇介绍了word2vec的方法。词向量最大的意义是把原来的字符串变成了一个数字形式的向量,也就是说现在词和图像变得非常相近,因为图像也就是例如255*255的像素点,而每个像素也是一个数字。因此,词向量被很多任务作为初始的输入,从这开始,我将以轻松的形式来介绍词向量的运用场景。

=

本着先进性的原则,我会介绍最新的16年的论文,以较轻松的形式。今天分析这篇:
用词向量理解词组的含义http://aclweb.org/anthology/Q/Q16/Q16-1002.pdf

Key Idea

作者的核心思想:用词典的定义来训练词组,
如 Piano:
A large keyboard musical instrument with a wooden case enclosing a soundboard and metal strings
那么代表下面一串的词组的向量就应该是piano向量.

训练的话,使用RNN或者一般的Bag of Word 神经网络。
简单来说,RNN训练的目标是
A,large,keyboard,musical,....strings -> Piano
这样一个序列能够得到Piano。
而Bag of Word则是
A->Piano, large->Piano, keyboard ->Piano,...strings ->Pinao这样每个单词可以得到答案Piano.
乍看之下RNN显得要比Bag of Word更合理,但是RNN存在vanishing gradient和迭代更新慢的特点,目前还没有在实用性上得到普及。

效果展示

作者提供了网址来测试他的研究。
我从几个维度来测试了效果,我先试了
A big company in China


可以看到训练数据应该不包含公司的信息,RNN输出的结果基本是乱码,而BOW输出的基本为地名,应该是匹配上了Place in China。

我再试了非常正规的词,路由器。以下定义都是我自己写的,和词典的无关。
A device that can access the Internet

可以看到这次RNN和BOW都得到了精准的答案,modern,在之前的几个结果和符合逻辑,什么server,browser.

最后我试了一个连我都不知道答案的介绍,想看看表现如何。
A book that can kill people。 一本杀人书!

RNN给出了死灵书这样的答案,非常给力啊。而BOW则非常中规中矩,给出了一些书的别称。

自然语言处理尚在发展时期,而不久的将来语义的理解可能不是梦o(∩_∩)o 哈哈。

=

时间: 2024-09-26 16:17:24

词向量的运用-用词向量理解词组的含义的相关文章

以行业词当网站的品牌词会给网站带来什么损失

把行业词当成品牌词这是SEO优化过程中最常见的问题,以行业词作为公司的品牌词是一个极大的错误,如果你以行业词作为你的品牌词(网站名称),那就说明你的网站是一个没有品牌词的网站.因为在取品牌名称的时候我们一定要保持其唯一性,不能有歧义.一般常见的错误是你是做某行业的,在你行业词后面加一个网字.比如你是做海南旅游的,你的网站称就是海南旅游网,其实这个名字就是一个极大的错误,原因就是不能保持唯一性,它是一个常用词,只要是做海南旅游的都可以叫这么一个名字. 假如你在做品牌推广的时候跟别人说我的网站叫海南

关键词的高价值 热词做第一潜在价值词挖掘

大家好,我是虚子雨.前面我给大家介绍过很多的关键词选择技巧,但是多半是针对SEO的基础技巧来说的,很少考虑关键词的价值.一个网站做SEO,说白了就是做网络营销,做网络营销的目的就是为了开展电子商务,而电子商务的最终目的是为了转化为利益,那么关键词的价值就显得非常的重要了.今天我就为大家介绍一下如何选取高价值的关键词.对于关键词来说我们企业和公司最希望得到的就是精准的流量,因为定向的流量哪怕是搜索量比较少,但是也会为我们的网站带来不小的价值,这一点上在长尾关键词上尤为能够得到体现.前面不论是一些站

c语言向量里放的另外几个向量,怎么访问里面向量里元素的个数

问题描述 c语言向量里放的另外几个向量,怎么访问里面向量里元素的个数 c语言向量里放的另外几个向量,怎么访问里面向量里元素的个数?? 解决方案 http://blog.sina.com.cn/s/blog_9ce5a1b501016rac.html 解决方案二: 双层循环遍历向量来获取对应元素.

java 函数问题不太理解语句的含义

问题描述 java 函数问题不太理解语句的含义 import java.applet.applet; import java.awt.*; public class example4_12 extends applet { Button redbutton; public void init() { redbutton = new Button("我是一个红色的按钮:"); redbutton.setBackground(color.red); add(redbutton); //这句

金山词霸2012 取词精准支持繁体字查词翻译

1.大幅优化取词准确度 图1 打开主界面后,左下角提示更新词典数据,目的在于优化取词准确度,小编一般在阅读国外新闻.英语文献.英文资料时会用到取词功能,只要鼠标悬停在单词上,即可立刻显示单词意思,于是小编马上打开今日外语新闻实测取词功能. 图2 图3 金山词霸2012取词功能非常赞,取词界面简明清晰,快速精准,一秒之内出翻译结果,可谓秒杀啊! 如果要看国外新闻,遇到不认识的单词也不用到处查了,开金山词霸鼠标一上就能知道意思了.看懂国外新闻,方知身边大事啊. 2.支持繁体字直接查词翻译 至于繁体字

百度竞价否词,百度竞价否词是为了什么

百度竞价否词是为了什么? 其实很简单就是否掉一些没有价值的关键词避免造成浪费,同时同行之间的名称关键词否词是商业道德和品牌专利的保证.因此不管是新的 竞价员,还是老鸟,都要养成发觉自己没有价值的关键词进行否词.很 多时候,我们都是先推广, 然后根据http://www.aliyun.com/zixun/aggregation/8988.html">网站统计或者商务通来进行否词,这样显然就无效的浪费 了money,作为专业的竞价员,我们不允许这样,竞价推广之前做好否词,对得起每一分钱.必须做

相关向量机 预测指标-相关向量机的预测评价

问题描述 相关向量机的预测评价 相关向量机在做故障预测时,想比与支持向量机,在预测指标上,除了能用概率表示,还有其他比对方法么?

灵格斯词霸,不只是词霸那样简单

凭借着小巧的体积和出色的翻译功能,灵格斯词霸在短短的两年间,就从一位无名小卒,成长为 一款有望能与http://www.aliyun.com/zixun/aggregation/12883.html">金山词霸相提并论的优秀翻译软件. 不过,如果您只是把它当作一款普通翻译软件 来看,那可就大错特错了.因为,正是这个体积不足7MB的小家伙,实现了很多令某些专业词典工具都会感到汗颜的功能.那么,除了标准的单词翻译以外,灵格斯词霸到底还有什么"能耐"?下面,我们就一同走进灵格

正确理解Traceback的含义

Traceback是Blog的一个重要特性,然而由于TraceBack的歧义性导致不少人都没有真正明白TraceBack的用途. Traceback Ping在blog系统中广泛使用,简单说来,Trackback是网站与网站之间互相通告的一种方法.例如,当你读了一篇日志,想对此写下自己的感想,您可以把新的日志内容写到自己的博客上.然后向原来的那篇日志发送一个引用通告.通过这种办法,在原始文章的下面就留下了你自己博客中的日志的链接,这样对于同一个话题的讨论,可以不局限在一个博客中了. Traceb