论文札记之 - A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval

前言
   
在统计自然语言处理任务中,最基础也是最关键的一步是将人能够理解的文本编码为机器能够计算的向量,并且在编码过程中,尽量保留原有的语法和语义特征。语法特征包括词法:形容词,动词,名词等;句法:主谓宾,定状补;语义角色:如施事、受事、与事。语义特征则是需要结合上下文推到出的文本真正的含义,对歧义句式进行更严格的分化,可以解释某些同形格式产生歧义的原因。这篇 paper 讨论的是如何利用卷积的方式对语义特征进行编码,

The CLSM Architecture    

卷积潜在语义模型(CLSM),基于卷积神经网络的潜在语义模型,捕捉重要的上下文特征用于语义建模,传统的 LSM 比较常用的有 LSA ,主要是构造 doc-term 矩阵,然后进行 svd 分解,得到 term vector 和 doc vector,缺点是只能建模到 semantic level,对于lexical level 效果不佳,基于此改进的模型如 PLSA(probabilstic LSA), LDA 等等,但是不具备上下文信息的捕捉能力。CLSM 能够同时捕捉到 word n-gram level 的特征和 sentence level 上下文特征,下图是 CLSM 的整体架构。

    

Convoltuion Network
           
在 convotulion netword 主要有四个操作:input 、conv 、pooling、output,分别对应着 word-n-gram 的 特征表示, word-n-gram-level 的上下文建模,sentence-level 的语义特征抽取,潜在语义向量的表示。

1. word-n-gram representation


在 CLSM 中使用卷积操作来抽取 lexical level 特征,lexical level 特征的表示方式是基于 word-n-gram 的 letter-trigram,一张图说明下  letter-trigram 的操作方式:

               
 因此,表示一个 word-n-gram 就是将每个 word 的 letter-trigram 连接起来得到向量, ft 是第 t 个 word 的 letter-trigram 表示,n = 2d + 1 是上下文窗口大小,实验中有 30K 的 letter-trigram,所以,letter-trigram 层的维度是 n * 30K 。


2. Modeling Word-n-gram-Level Contextual Features 

从 letter-trigram 层  经过 卷积操作  得到 卷积层, Wc 为卷积操作的 convolution matrix , 卷积层是用于捕捉 word-n-gram 的上下文特征,contexts 中的 word 被投射到了向量中,相似的 semantic 会有相近的表示向量,文章中给出了一组实验数据:
 
 可以看出,第一个例子中,针对 office 这个重要的词的上下文语义信息已经能够很好的表示出来了。

3. Modeling Sentence-Level Semantic Features

经过卷积操作之后,已经完成了词的上下文特征抽取,这些特征需要聚合在一起,得到一组定长的向量表示,作为句子层面的语义特征,很明显,pooling 操作 可以达到特征抽取的目的,实际操作中,使用 max-pooling ,抽取最具代表性的词,可视化后的结果如下:  
可以看出,在 pooling 层,能够将句子中语义信息重要的词 (加粗的词) 抽取出来,到此卷积操作已经完成了。
             
4. Latent Semantic Vector Representations

到这一步,sentenct-level 的语义特征已经由 max-pooling 操作生成了,后面再加一个线形激活层,用于抽取最终的 high-level semantic representation , 也可以理解为接一个 output 层,网络结构就搭建完成了。

Appliation

文章将 CLSM 模型应用到 IR (信息检索中),给定一个 query 和 doc ,对 query 和 doc 同时用 CLSM 抽取 high-level semantic representation,然后计算 cosine 相似度作为 query 和 doc 的语义相似度。在 IR 任务中学习一个 CLSM 也比较方便,估计 query 和 doc 的后验概率,, D+ 为query 点击的 doc ,D`为全部 docs ,然后利用最大似然 作为目标函数,完成端到端的优化。
           
Summary

这篇文章是 微软 DSSM 模型的改进版本,DSSM 是将 query 和 doc 以词袋模型进行建模,比较粗糙,很多细粒度的上下文特征全部丢失了,CLSM 借鉴 CNN 的思想,综合 n-gram 完成了词法和句法特征的抽取,也算是应用型创新的好例子,文章是 2014 年发表的,后续还有 RNN(LSTM) 的引入,类似于拼积木,根据实际任务组合一些算法插件。
 

Reference

 A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval,Yelong Shen, etc

    
    

时间: 2024-08-30 19:58:38

论文札记之 - A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval的相关文章

论文笔记之:Visual Tracking with Fully Convolutional Networks

论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的

AVEVA Model Data Exchange Exports Structure Models

AVEVA Model Data Exchange Exports Structure Modelseryar@163.com   Use Model Data Exchange Addin to export structure models for PDMS: Figure 1.1 Structure models in AVEVA PDMS Figure 1.2 Structure models exported by Model Data Exchange Figure 1.3 Put

论文札记之 - Generative Adversarial Nets

值此岁末之际,又逢DL浪潮之巅,深觉应该整理下看过的一些 papers,写写自己粗鄙的见解,第一篇就从目前热门的 GAN 开始吧 摘要    GAN 是一个框架 ,有两个 model,一个是用于刻画数据分布的生成式模型 G ; 另一个是判别模型 D ,用于判断数据是从 G 生成的还是从训练样本中采样的.理所应当的, G 模型要让 D 模型相信数据是从自身产生的,因此目标就是 "maximize the probability of D making a mistake" .作为一个判别

论文笔记之:Instance-aware Semantic Segmentation via Multi-task Network Cascades

  Instance-aware Semantic Segmentation via Multi-task Network Cascades Jifeng Dai Kaiming He Jian Sun   本文的出发点是做Instance-aware Semantic Segmentation,但是为了做好这个,作者将其分为三个子任务来做: 1) Differentiating instances. 实例区分 2) Estimating masks. 掩膜估计 3) Categorizing

PaperWeekly 第37期 | 论文盘点:检索式问答系统的语义匹配模型(神经网络篇)

" slvher 助理来也后端/算法工程师  目前研发方向为多轮对话系统 问答系统可以基于规则实现,可以基于检索实现,还可以通过对 query 进行解析或语义编码来生成候选回复(如通过解析 query并查询知识库后生成,或通过 SMT 模型生成,或通过 encoder-decoder 框架生成,有些 QA 场景可能还需要逻辑推理才能生成回复).   具体到检索式问答系统,其典型场景是:1)候选集先离线建好索引:2)在线服务收到 query 后,初步召回一批候选回复:3)matching 和 ra

计算机视觉、机器学习相关领域论文和源代码大集合

计算机视觉.机器学习相关领域论文和源代码大集合--持续更新-- zouxy09@qq.com http://blog.csdn.net/zouxy09 注:下面有project网站的大部分都有paper和相应的code.Code一般是C/C++或者Matlab代码. 最近一次更新:2013-3-17 一.特征提取Feature Extraction: ·         SIFT [1] [Demo program][SIFT Library] [VLFeat] ·         PCA-SI

当微软研究院遇上CVPR,四篇论文抢鲜看 | CVPR 2017

雷锋网AI科技评论按:CVPR全称为"IEEE Conference on Computer Vision and Pattern Recognition"(计算机视觉与模式识别会议),是计算机视觉与模式识别领域最有影响力的国际学术会议之一.CVPR将于2017于7月21日至7月26日举行,雷锋网AI科技评论将从夏威夷带来一线报道.该会议举办期间,雷锋网(公众号:雷锋网)将围绕会议议程及获奖论文展开系列专题报道,敬请期待. 论文一:<StyleBank: An Explicit

作为KDD 2017钻石赞助商,滴滴出行在现场有哪三大亮点值得关注?(附论文视频)| KDD 2017

雷锋网 AI 科技评论按:本周末,每年一度的数据挖掘的顶级会议ACM SIGKDD在加拿大新斯科舍省省会哈利法克斯拉开了序幕,整个会议13号到17号,持续5天.在异国他乡的顶尖国际会议上,雷锋网AI科技评论发现,不仅在收录论文列表里频频出现中国人的名字,甚至连赞助商都有一系列的中国公司位列前排,其中"滴滴出行"则以钻石赞助商的身份排在首要位置.这就引起了我们对滴滴在此次会议中活动的特别注意. 通过查找,雷锋网(公众号:雷锋网)发现滴滴在这次大会中共有4个活动: 14日下午13:30-1

SIGIR2017 满分论文:IRGAN | 每周一起读

IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models 在现代信息检索领域一直是两大学派之争的局面.一方面,经典思维流派是假设在文档和信息需求(由查询可知)之间存在着一个独立的随机生成过程.另一方面,现代思维流派则充分利用机器学习的优势,将文档和搜索词联合考虑为特征,并从大量训练数据中预测其相关性或排序顺序标签. 本篇 SIGIR2017 的满分论文则首次提出将两方