word2vec 超easy解读保证你看了就会(4)!

这次开始介绍word2vec的第二种实现,GloVe: Global Vectors for Word Representation.
根据我目前的认知,从结果上来说(求解的模型),这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说,看上去是有区别的。

GloVe: Global Vectors for Word Representation

同之前介绍的一样,作者同样认为,一个词的表示可以由这个词的上下文决定。两个词的上下文类似,那么这两个词也就类似或者相关。先上表。

表中\(P(i|j)\) 的含义是,在全文本中,词\(i\)的上下文中\(j\)的数量 /(除以) 词\(i\)上下文单词的总数. 记作\(frac{X_{ij}}{X_i} \)
例如,\(P(solid|ice)=1.9*10^{-4}\) 表示单词ice在单词solid附近出现的占比是0.019%.
由于ice是solid(固体)的,steam不是solid的,我们有理由相信,steam在solid周围(上下文,一个滑窗)出现的次数应该小于ice在solid周围出现的次数。
从表中第二行第一列可知,确实如此,steam在solid周围出现的比例大约为0.0022% .
同理由于steam是gas,而ice不是gas,因此\(P(gas|ice)

而water和ice,steam都有密切的关系,因此\(P(water|ice)≈P(water|steam)\).
而fashion则和两者关系都不大,因此\(P(fashion|ice)≈P(fashion|steam)\).

模型建立

有理由相信,对于三个词\(i,j,k\),他们\(P(k|i)/P(k|j)\)的值可以解释他们之间的关系。
因此,我们可以假设一个函数,自变量是三个词的vec表示,然后函数结果则是\(P(k|i)/P(k|j)\)。

$$F(w_i,w_j,w_k)=P(i|k)/P(j|k)$$
其中每个\(w_i\)是一个H维词向量表示。

接下来的问题就是怎么决定这个F了。作者的眼光总是逃不开简单化,和向量相减的思路。于是他提出了把3个自变量三合一。

$$F((w_i-w_j)^Tw_k)=P(i|k)/P(j|k)$$

也就是两个词向量的差点乘另一个词向量应该等于目标值。
然后,作者又认为,这个函数必须是群同构映射。我在这就不扯什么是群同构映射了,从结论上来说就是

$$ F((w_i-w_j)^Tw_k)=F(w_i^Tw_k)/F(w_j^Tw_k)$$
联立上面两个方程,可以得到

$$F(w_i^Tw_k)=P(i|k) $$

而取\(F=e^x, w_i^Tw_k=log(P(i|k))=log(X_{ik})-log(X_i)\) 上述同态映射就可以满足了。

考虑到这个式子缺少对称性,我们最后改为
$$w_i^Tw_k+b_i+b_k=log(X_{ik})$$

以上的所有操作都是为了确定函数F是什么样的,每个步骤看上去有道理其实也是为了计算的简便。
再次明确下各个部分的含义
等式的右边是已知数,\(X_{ik}\) 表示单词k在单词i周围出现的概率。
等式的左边是变量,其中\(w_i\)是H维词向量,而\(b_i\)是常数值。

这看上去像是VV(V是词汇量)个方程求解问题,但这基本上无解的,原因是变量只有4V个,而方程有V*V个。所以我们只能再出搬出loss function了。

$$ LOSS=\sum^V_{i,j=1} f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2$$

其中f()是一个权重函数,我们的目的就是最小化LOSS。
至此,模型描述完毕,下一期开始代码解析,模型速度优化和与之前模型的对比。

时间: 2024-10-25 19:38:17

word2vec 超easy解读保证你看了就会(4)!的相关文章

高分悬赏 请大神指导-超级长得SQL语句,看晕你的头,求大神帮忙看一下这段SQL错在哪里。

问题描述 超级长得SQL语句,看晕你的头,求大神帮忙看一下这段SQL错在哪里. DECLARE @SQL VARCHAR(8000) SET @SQL ='SELECT A.POINT, A.WZ, A.LC, A.PL1, A.PL2, A.XS1, CASE WHEN ISNULL(A.ZDZS,'''') <> '''' THEN A.ZDZS ELSE 0 END AS ZDZS, CASE WHEN ISNULL(A.PJZ,'''') <> '''' THEN A.PJ

大剧院创编《马可-波罗》陈维亚:保证能看懂

总导演陈维亚在发言 本报讯(记者许青红)昨天,国家大剧院举办首部原创舞剧<马可·波罗>建组会,总编导陈维亚.作曲张千一.舞美设计高广健等到场.陈维亚称,<马可·波罗>的风格将是浪漫.唯美,充满梦幻色彩,他保证会让观众看懂. 据陈维亚透露,舞剧<马可·波罗>将以一个现代青年化身"马可·波罗"梦回古代中国的形式讲述故事,借他的眼睛展示中华文明的辉煌.陈维亚称,全剧的风格将是浪漫.唯美,充满梦幻色彩,"虽然有梦的表现形式,但不是杂乱无序的,以年轻

从《超验骇客》看主流社会对人工智能的警惕

电影<超验骇客>近期在全球上映,这部好莱坞科幻大片讲述了人工智能对人类的危害有严重.电影中威尔卡斯特博士是人工智能领域的权威,他结合了人类情感和智慧研发足以毁灭世界的机器人. 电影中威尔卡斯特博士创造出了人工智能,但是对欲望的追求使他迷失了自我,成为科技的奴隶,机器人成为人类生存的威胁,这让人唏嘘不已.在我们创造科技的同时,如何驾驭科技一直是值得深思的课题. "人工智能威胁人类"的观点一直有不少拥护者.在电影世界中,机器人反叛人类.电脑统治世界的例子屡见不鲜,影片<终

超经典笑话,不看后悔

问题描述 1.部队驻扎在北极圈内."根本不算冷,"一个老兵说:"我在阿拉斯加呆过,那地方才冷呢!连炉 子里的火都冻住了,怎么吹也吹不灭." "这算什么!"另一个老兵不服气,"在我呆过的一个地方,在讲话时,话一出口就冻住了!着样一 来,我们只得把冰冻单词放在开水里融化,才能理解命令!"2.小花因膝盖瘀青而去看医生. 医生:为什么你会膝盖瘀青的? 小花:这--这是--因为--我--我用狗交的方式--做爱. 医生:难道你不会改用其他

经济减速未超预期物价回落还看秋粮

国家统计局新闻发言人盛来运接受记者采访. 本报记者 韩晓东 实习记者 钟华 经济前期快速扩张的"虚火"正进一步被挤压.7月份,我国外需.投资.消费.工业.货币供应等一系列指标出现"全景式"增速回落.尽管幅度并不明显,但由此当折射经济热度有所放缓. 受蔬菜.粮食.猪肉等食品价格反弹的影响,7月物价涨幅攀升至3.3%,达到近21个月以来的新高.多数专家认为,物价未来没有继续明显反弹的动力,全年物价将基本稳定.但一个不确定的因素在于,如果秋粮减产等因素推高食品价格,本轮物

采用超融合架构?还要看这三个关键

如果你不是特大型的架构,也不是正要建立一个新的数据中心,有什么方法能采用超大规模或者超融合架构呢? 我们在第一部分<使用超大规模云系统 企业要做两件事>中提到,VMTurbo的最新研究报告表明,为使用超大规模云系统,企业需要做两件重要的事.但是如果你不是特大型的架构,也不是正要建立一个新的数据中心,有什么方法能采用超大规模或者超融合架构呢?以下是三个关键: 展望主机托管 第一个答案是通过别人:可以是通过那些大的云服务提供商,或者通过主机托管的方式. 大多数主机托管服务提供商一直在很努力地提高自

超视角:从iPhone 6看未来主流手机技术

虽然苹果官方还未公布iPhone 6的发布日期,但各方消息已经指向了9月9号,iPhone就是有这样的魔力,每代新品都会吸引全世界期待的目光,人们把对于未来科技的向往寄托给了苹果,而苹果始终承载着这些,在探索创新的前沿踽踽独行,不断给大家带来炫酷的产品.回顾这两年,智能机的硬件和功能已经发展相当成熟的地步,因研发能力的欠缺和战略发展方向的不明晰,多数厂商面对下一代产品的形态都产生了困顿和狐疑,而苹果却是一副众人皆醉我独醒的模样,历代iPhone和iOS总会呈现出新形态或者新技术,而且都有着明确的

超Easy!三步学会将pdf文档转换成Excel

  在工作中,大家经常会接到上级的各种要求,这点小编也不例外,这天,主管让小编制作一份excel文档,其制作要求颇高,而小编当时工作已成饱和状态,根本没时间来制作这样一份excel文件,没办法,小编只能上网找模板了.通过小编的不断努力,终于找到一份相当不错的模板,但是,这个模板确是pdf格式,这可怎么办呢?在网上小编看到有网友推荐直接将pdf转换成excel,可是,怎么将pdf转换成excel呢? 通过网友的介绍,小编了解到了一款神奇的文件转换工具--迅捷pdf转换成excel转换器,该转换器支

中海油跌2%走势远超油价瑞信低看6.57元

国际原油价格小幅回落,中海油今早高开低走,股价现跌1.85%至10.62港元,成交2189万股.瑞信发表报告称,给予该股弱于大盘评级:目标价6.57港元,比市价大幅折价38%. 瑞信指,油价走势超出了基本面,而中海油的走势又超出了油价.原油的基本面比价格走势要疲软,显示多余产能达到自油价开始牛市行情以来的最高水平:即使需求复苏,多余的产能也难以降至2003年的水平.油价反映了复苏预期,受美元走软和通货膨胀预期影响,投资者也扩大了对原油的投资敞口,但美元走软的局面可能在很大程度上已经成为过去. 瑞