不可思议的Word2Vec之系列四- 不一样的“相似”

I. 相似度的定义

当用Word2Vec得到词向量后,一般我们会用余弦相似度来比较两个词的相似程度,定义为

cos(x,y)=x⋅y|x|×|y|cos⁡(x,y)=x⋅y|x|×|y|

有了这个相似度概念,我们既可以比较任意两个词之间的相似度,也可以找出跟给定词最相近的词语。这在gensim的Word2Vec中,由most_similar函数实现。

等等!我们很快给出了相似度的计算公式,可是我们居然还没有“定义”相似!连相似都没有定义,怎么就得到了评估相似度的数学公式了呢?

要注意,这不是一个可以随意忽略的问题。很多时候我们都不知道我们干的是什么,就直接去干了。好比上一篇文章说到提取关键词,相信很多人都未曾想过,什么是关键词,难道就仅仅说关键词就是很“关键”的词?而如果想到,关键词就是用来估计文章大概讲什么的,这样我们就得到一种很自然的关键词定义

keywords=argmaxw∈sp(s|w)keywords=arg⁡maxw∈s⁡p(s|w)

进而可以用各种方法对它建模。

回到本文的主题来,相似度怎么定义呢?答案是:看场景定义所需要的相似。

那么,通过余弦相似度给出的相似,又是什么情况呢?事实上,Word2Vec本质上来说,还是使用上下文的平均分布描述当前词(因为Word2Vec是不考虑词序的),而余弦值与向量模长没关系,因此它描述的是“相对一致”。那么,余弦相似度大,事实上意味着这两个词经常跟同一批词搭配,或者更粗糙讲,那就是在同一句话中,两个词具有可替换性。比如,“广州”最相近的词语是“东莞”、“深圳”,那是因为很多场景下,直接将矩阵中的“广州”直接换成“东莞”、“深圳”,这个句子还是合理的(是句子本身的合理,但这个句子不一定是事实,比如“广州是广东的省会”,变成“东莞是广东的省会”,这个句子是合理的,但是这个句子并非是事实)。

>>> s = u'广州'

>>> pd.Series(model.most_similar(s))
0 (东莞, 0.840889930725)
1 (深圳, 0.799216389656)
2 (佛山, 0.786817014217)
3 (惠州, 0.779960155487)
4 (珠海, 0.735232532024)
5 (厦门, 0.725090026855)
6 (武汉, 0.724122405052)
7 (汕头, 0.719602525234)
8 (增城, 0.713532149792)
9 (上海, 0.710560560226)

II. 相关:另一种相似

前面已经说了,相似度的定义事实上要看场景的,余弦相似度只是其中之一。有时候我们会觉得“东莞”和“广州”压根就没联系,对于“老广州”来说,“白云山”、“白云机场”、“广州塔”这些词才是跟“广州”最相似的,这种场景也是很常见的,比如做旅游的推荐,旅游来到广州后,自然是希望输入“广州”后,自动输出来“白云山”、“白云机场”、“广州塔”这些广州相关的词语,而不是输出“东莞”、“深圳”这些词语。

这种“相似”,准确来说是“相关”,应该怎么描述呢?答案是互信息,定义为

logp(x,y)p(x)p(y)=logp(y|x)−logp(y)log⁡p(x,y)p(x)p(y)=log⁡p(y|x)−log⁡p(y)

互信息越大,说明x,yx,y两个词经常一起出现。

这样,在给定词xx的情况下,我们就可以找出经常跟词xx一起出现的词,这个也完全可以由Word2Vec中的Skip-Gram+Huffman Softmax模型来完成。代码如下

import numpy as np
import gensim
model = gensim.models.word2vec.Word2Vec.load('word2vec_wx')

def predict_proba(oword, iword):
    iword_vec = model[iword]
    oword = model.wv.vocab[oword]
    oword_l = model.syn1[oword.point].T
    dot = np.dot(iword_vec, oword_l)
    lprob = -sum(np.logaddexp(0, -dot) + oword.code*dot)
    return lprob

from collections import Counter
def relative_words(word):
    r = {i:predict_proba(i, word)-np.log(j.count) for i,j in model.wv.vocab.iteritems()}
    return Counter(r).most_common()

这时候,“广州”的相关词为

>>> s = u'广州'

>>> w = relative_words(s)

>>> pd.Series(w)
0 (福中路, -17.390365773)
1 (OHG, -17.4582544641)
2 (林寨镇, -17.6119545612)
3 (坪山街道, -17.6462214199)
4 (东圃镇, -17.6648893759)
5 (西翼, -17.6796614955)
6 (北京西, -17.6898282385)
7 (⇋, -17.6950761384)
8 (K1019, -17.7259853233)
9 (景泰街道, -17.7292421556)
10 (PSW3, -17.7296432222)
11 (广州铁路职业技术学院, -17.732288911)
12 (13A06, -17.7382891287)
13 (5872, -17.7404719442)
14 (13816217517, -17.7650583156)
15 (未遂案, -17.7713452536)
16 (增城市, -17.7713832873)
17 (第十甫路, -17.7727940473)
18 (广州白云机场, -17.7897457043)
19 (Faust, -17.7956389314)
20 (国家档案馆, -17.7971039916)
21 (w0766fc, -17.8051687721)
22 (K1020, -17.8106548248)
23 (陈宝琛, -17.8427718407)
24 (jinriGD, -17.8647825023)
25 (3602114109100031646, -17.8729896156)

可以发现,得到的结果基本上都是跟广州紧密相关的。当然,有时候我们稍微强调一下高频词,因此,可以考虑将互信息公式修改为

logp(x,y)p(x)pα(y)=logp(y|x)−αlogp(y)log⁡p(x,y)p(x)pα(y)=log⁡p(y|x)−αlog⁡p(y)

其中αα是一个略小于1的常数。如果取α=0.9α=0.9,那么有

from collections import Counter
def relative_words(word):
    r = {i:predict_proba(i, word)-0.9*np.log(j.count) for i,j in model.wv.vocab.iteritems()}
    return Counter(r).most_common()

结果重新排列如下:

>>> s = u'广州'

>>> w = relative_words(s)

>>> pd.Series(w)
0 (福中路, -16.8342976099)
1 (北京西, -16.9316053191)
2 (OHG, -16.9532688634)
3 (西翼, -17.0521852934)
4 (增城市, -17.0523156839)
5 (广州白云机场, -17.0557270208)
6 (林寨镇, -17.0867272184)
7 (⇋, -17.1061883426)
8 (坪山街道, -17.1485480457)
9 (5872, -17.1627067119)
10 (东圃镇, -17.192150594)
11 (PSW3, -17.2013228493)
12 (Faust, -17.2178736991)
13 (红粉, -17.2191157626)
14 (国家档案馆, -17.2218467278)
15 (未遂案, -17.2220391092)
16 (景泰街道, -17.2336594498)
17 (光孝寺, -17.2781121397)
18 (国际货运代理, -17.2810157155)
19 (第十甫路, -17.2837591345)
20 (广州铁路职业技术学院, -17.2953441257)
21 (芳村, -17.301106775)
22 (检测院, -17.3041253252)
23 (K1019, -17.3085465963)
24 (陈宝琛, -17.3134413583)
25 (林和西, -17.3150577006)

相对来说,后面这个结果更加可读一点。另外的一些结果,展示如下:

>>> s = u'飞机'
>>> w = relative_words(s)
>>> pd.Series(w)
0 (澳门国际机场, -16.5502216186)
1 (HawkT1, -16.6055740672)
2 (架飞机, -16.6105400944)
3 (地勤人员, -16.6764712234)
4 (美陆军, -16.6781627384)
5 (SU200, -16.6842796275)
6 (起降, -16.6910345896)
7 (上海浦东国际机场, -16.7040362134)
8 (备降, -16.7232609719)
9 (第一架, -16.7304077856)

>>> pd.Series(model.most_similar(s))
0 (起飞, 0.771412968636)
1 (客机, 0.758365988731)
2 (直升机, 0.755871891975)
3 (一架, 0.749522089958)
4 (起降, 0.726713418961)
5 (降落, 0.723304390907)
6 (架飞机, 0.722024559975)
7 (飞行, 0.700125515461)
8 (波音, 0.697083711624)
9 (喷气式飞机, 0.696866035461)

>>> s = u'自行车'
>>> w = relative_words(s)
>>> pd.Series(w)
0 (骑, -16.4410312554)
1 (放风筝, -16.6607225423)
2 (助力车, -16.8390451582)
3 (自行车, -16.900188791)
4 (三轮车, -17.1053629907)
5 (租赁点, -17.1599389605)
6 (电动车, -17.2038996636)
7 (助动车, -17.2523149342)
8 (多辆, -17.2629832083)
9 (CRV, -17.2856425014)

>>> pd.Series(model.most_similar(s))
0 (摩托车, 0.737690329552)
1 (骑, 0.721182465553)
2 (滑板车, 0.7102201581)
3 (电动车, 0.700758457184)
4 (山地车, 0.687280654907)
5 (骑行, 0.666575074196)
6 (单车, 0.651858925819)
7 (骑单车, 0.650207400322)
8 (助力车, 0.635745406151)
9 (三轮车, 0.630989730358)

大家可以自己尝试。要说明的是:很遗憾,Huffman Softmax虽然在训练阶段加速计算,但在预测阶段,当需要遍历一遍词典时,事实上它比原生的Softmax还要慢,所以这并不是一个高效率的方案。

III. 究竟做了啥

根据前面两部分,我们可以看到,“相似”一般有两种情景:1、经常跟同一批词语搭配出现;2、经常一起出现。这两种情景,我们都可以认为是词语之间的相似,适用于不同的需求。

比如,在做多义词的词义推断时,比如star是“恒星”还是“明星”,就可以利用互信息。我们可以事先找到star意思为“恒星”的时候的语料,找出与star互信息比较大的的词语,这些词语可能有sun、planet、earth,类似地,可以找到star为“明星”的时候的语料,找出与star互信息比较大的词语,这些词语可能有entertainment、movie等。到了新的语境,我们就可以根据上下文,来推断究竟是哪个词义。

总而言之,需要明确自己的需求,然后再考虑对应的方法。

时间: 2024-11-27 04:53:42

不可思议的Word2Vec之系列四- 不一样的“相似”的相关文章

不可思议的Word2Vec之系列三-提取关键词

本文主要是给出了关键词的一种新的定义,并且基于Word2Vec给出了一个实现方案.这种关键词的定义是自然的.合理的,Word2Vec只是一个简化版的实现方案,可以基于同样的定义,换用其他的模型来实现. 说到提取关键词,一般会想到TF-IDF和TextRank,大家是否想过,Word2Vec还可以用来提取关键词?而且,用Word2Vec提取关键词,已经初步含有了语义上的理解,而不仅仅是简单的统计了,而且还是无监督的! I. 什么是关键词? 诚然,TF-IDF和TextRank是两种提取关键词的很经

走近Flex组件系列(四):分组组件(Box)、分割组件(DividedBox)和容器组件

走近Flex组件系列(四):分组组件(Box).分割组件(DividedBox)和容器组件(Panel) 本文主要介绍Flex的Box,DividedBox和Panel组件的应用. 一.分组组件(Box) Flex中Box组件分两种,即VBox和HBox,也就是水平分组布局和垂直分组布局.下面对这两中分别进行介绍. Flex的VBox组件可以自动的帮助开发人员在界面布局的时候进行水平分组,所谓的分组也就是他会自动将放置在其内部的其他组件进行水平布局放置,如下mxml代码: 1 <mx:HBox

iOS开发UINavigation系列四——导航控制器UINavigationController

iOS开发UINavigation系列四--导航控制器UINavigationController 一.引言         在前面的博客中,我么你介绍了UINavigationBar,UINavigationItem和UIToolBar,UINavigationController是将这些控件和UIViewController紧密的结合了起来,使用导航,我们的应用程序层次会更加分明,对controller的管理也更加方便.前几篇博客地址如下: UINavigationBar:http://my

iOS流布局UICollectionView系列四——自定义FlowLayout进行瀑布流布局

iOS流布局UICollectionView系列四--自定义FlowLayout进行瀑布流布局 一.引言         前几篇博客从UICollectionView的基础应用到设置UICollectionViewFlowLayout更加灵活的进行布局,但都限制在系统为我们准备好的布局框架中,还是有一些局限性,例如,如果我要进行瀑布流似的不定高布局,前面的方法就很难满足我们的需求了,如下: 这种布局无疑在app的应用中更加广泛,商品的展示,书架书目的展示,都会倾向于采用这样的布局方式,当然,通过

xen虚拟化实战系列(四)之xen虚拟机扩展磁盘空间一法

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://koumm.blog.51cto.com/703525/1285460 xen虚拟化实战系列文章列表 xen虚拟化实战系列(一)之xen虚拟化环境安装xen虚拟化实战系列(二)之xen虚拟机安装xen虚拟化实战系列(三)之xen虚拟机复制xen虚拟化实战系列(四)之xen虚拟机扩展磁盘空间一法xen虚拟化实战系列(五)之xen虚拟机扩展磁盘空间再一法xen虚拟化实战系列(六)之x

iOS中CoreData数据管理系列四——进行数据与页面的绑定

iOS中CoreData数据管理系列四--进行数据与页面的绑定 一.引言     在上一篇博客中,我们讨论了CoreData框架中添加与查询数据的操作,事实上,在大多数情况下,这些数据都是由一个UITableView表视图进行展示的,因此,CoreData框架中还未开发者提供了一个类NSFetchedResultsController,这个类作为桥接,将视图与数据进行绑定. 添加与查询数据操作:http://my.oschina.net/u/2340880/blog/611430. 二.进行数据

BootStrap智能表单实战系列(四)表单布局介绍_javascript技巧

什么是 Bootstrap? Bootstrap 是一个用于快速开发 Web 应用程序和网站的前端框架.Bootstrap 是基于 HTML.CSS.JAVASCRIPT 的. 表单的布局分为自动布局和自定义布局两种: 自动布局就是根据配置项中第二级配置项中数组的长度来自动使用不同的bootstrap栅格,通过设置autoLayout为true可以实现自动布局 自动以布局就是根据autoLayout来决定使用的栅格,通过设置autoLayout:'1,2,1,2,2,4' 表示 第一.二列占3格

VSTO之旅系列(四):创建Word解决方案

原文:VSTO之旅系列(四):创建Word解决方案 本专题概要 引言 Word对象模型 创建Word外接程序 小结   一.引言 在上一个专题中主要为大家介绍如何自定义我们的Excel 界面的,然而在这个专题中,我将为大家介绍如何用VSTO来创建Word项目,对于Word的VSTO开发和Excel的开发很类似,你同样也可以为Word自定义界面的,他们的区别主要在于对象模型的不同,只要熟悉了Word的对象模型,操作Word也就很简单了.下面首先就开始介绍Word的对象模型的. 二.Word对象模型

RX系列四 | RxAndroid | 加载图片 | 提交表单

RX系列四 | RxAndroid | 加载图片 | 提交表单 说实话,学RxJava就是为了我们在Android中运用的更加顺手一点,也就是RxAndroid,我们还是先一步步来,学会怎么去用的比较好,之前的三篇算是铺垫,让你有一点认识,那Rx在Android中有什么好处呢?我们先模拟一些原始功能和他对比下 一.加载图片 很多人说Rx出来之后,是编程思想的一种进阶,实际上我学习了这种思想之后,确实是觉得有了很大的改变,不过,需要一点学习成本再加上,需要对原先的思想有些改观,使得我依旧有点不适应