ECAI 2016论文精选 | 用于改善文字和文本嵌入的聚类驱动模型

ECAI 2016是欧洲展示AI科学成果的最佳场所,大会为研究人员提供了很好的机会,去介绍和听取当代最优秀的人工智能研究成果。

用于改善文字和文本嵌入的聚类驱动模型(Cluster-Driven Model for Improved Word and Text Embedding)

摘要:大多数现有的文字嵌入模型只能考虑文字和与它相近语境之间的关系(例如,十字左右的目标文字)。然而,超越相近语义的信息(整体语境),反映了丰富的语义含义,而这通常都被忽略了。本文中,我们提出了一个通用的框架,利用全局信息学习单词和文本表示。我们的模型可以很容易地集成到现有的局部字嵌入模型,从而根据不同的下游任务引入不同程度的全局信息。此外,我们从共生矩阵的角度来看待我们的模型,在此基础上一种新的加权词-文档矩阵被因式分解以生成文本表示。我们进行了一系列的实验,来评估通过我们模型学习的单词和文本表示。实验结果显示我们的模型优于或者堪比最佳性能的模型。

本论文的原程序在https://github.com/zhezhaoa/cluster-driven

第一作者介绍

Zhe Zhao

中国人民大学信息学院

via:ECAI  2016

PS : 本文由雷锋网(公众号:雷锋网)独家编译,未经许可拒绝转载!

原论文下载

本文作者:章敏

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-17 04:09:31

ECAI 2016论文精选 | 用于改善文字和文本嵌入的聚类驱动模型的相关文章

更快,更精确的人脸识别方法(ECAI 2016论文精选)| AI科技评论

ECAI 2016是欧洲展示AI科学成果的最佳场所,大会为研究人员提供了很好的机会,去介绍和听取当代最优秀的人工智能研究成果. 人脸识别的随机典型相关判别分析(Randomized Canonical Correlation Discriminant Analysis for Face Recognition)   摘要:典型相关分析(CCA)作为多元统计分析中的一大重要技术,已广泛应用于脸部识别.但是现存基于CCA的脸部识别方法需要相同脸部脸样本的两种表达,而且在处理大样本时,通常会受到较高的

ECAI 2016论文精选 | 基于顺序保持投影的面部年龄估计——这是一个看脸的存在,年龄不再是秘密 | AI科技评论

应用场景导读:本文提出了一种基于顺序的新型面部年龄分析技术.当时how-old的意外走红除了证明朋友圈依然是一个看脸的存在,还说明了此类技术的巨大潜力,现在已经用于各种商业场景,帮助商业主做精准的客户分析.一个摄像头记录下来店人群的面部信息,就可以大致归纳他们的年龄和性别区间,进而得到在某个商铺做停留动作的人群中年龄.性别的比例,相应的客户动向和行为分析等更深入的应用也已经逐渐落地. 标题:基于顺序保持投影的面部年龄估计 摘要:面部年龄估计是自动面部感知中还未解决的挑战之一.之前的研究通常把它表

ECAI 2016论文精选 | 一种可扩展基于聚类的局部多标记分类方法

ECAI 2016是欧洲展示AI科学成果的最佳场所,大会为研究人员提供了很好的机会,去介绍和听取当代最优秀的人工智能研究成果. 一种可扩展基于聚类的局部多标记分类方法(A Scalable Clustering-Based Local Multi-Label Classification Method)   摘要:多标记分类的目标是将多个标签分配到一个单一的测试实例中.最近,越来越多的多标记分类应用出现了大-规模(large-scale)问题,其中实例,特征,和标记的数量要不就是其中有一个很大,

半监督组稀疏表示:模型、算法与应用(ECAI 2016论文精选)| AI科技评论

ECAI 2016是欧洲展示AI科学成果的最佳场所,大会为研究人员提供了很好的机会,去介绍和听取当代最优秀的人工智能研究成果. 半监督组稀疏表示:模型.算法与应用(Semi-Supervised Group Sparse Representation:Model, Algorithm and Applications)   摘要:组稀疏表示(GSR)利用了数据中的组结构,并在许多问题上效果很好. 然而,该组结构必须事先手动给出.在许多实际情况下,如分类,样本都是根据他们的标签进行分组的.在这种情

ECAI 2016论文精选 | 图像分类的随机分布特征

ECAI 2016是欧洲展示AI科学成果的最佳场所,大会为研究人员提供了很好的机会,去介绍和听取当代最优秀的人工智能研究成果. 图像分类的随机分布特征(Randomized Distribution Feature for Image Classification) 摘要:局部图像特征可以被假定是从一个未知的分布中描绘出来的.而对于图像分类,这样的特征则是通过基于直方图的模型或基于度量的模型进行比较.将这些局部特征为量化一组直方图,基于直方图的模型非常方便,而且有图像的矢量表示,但信息可能会在矢

ECAI 2016论文精选 | 自适应学习网络化多代理系统中的社会规范高效出现——人工智能居然也会互相学习 | AI科技评论

应用场景导读:多代理系统是一个崭新的研究领域.它在短时间内显示出的理论和实际应用价值引起多方面的高度重视.其理论价值包括重新认识智能等基本问题,其实际应用价值包括开创基于代理的系统.人的助手.使用国际互联网获取和推销信息等.其广泛的应用领域包括太空服务.区域监测.机器人合作.工业控制.商业和经济等. 标题:自适应学习网络化多代理系统中的社会规范高效出现 摘要:本文探讨了如何利用网络化多代理系统代理的自适应学习行为来加强规范.一般学习框架,其中代理可以通过他们各自学习经验进行社会学习,动态地调整自

PRICAI 2016 论文精选 | 基于多核学习整合文本信息的微博图片情绪分析

近年来,微博已经成为了人们最常用的网络社交工具之一,所以对微博中的信息进行挖掘是非常有价值的.因为图片具有快捷方便的天然属性,只用图片发布微博是一个新的趋势.目前大多数微博的情绪分析研究都聚焦在文本,已经不能适用.利用机器学习技术对图片进行情绪分析是实现高级人机交互的重要部分,对于实现人机交互.人-计算机接口以及智能计算机等有重要意义,这已成为目前模式识别.机器学习和认知科学等研究领域的热门研究课题之一. 标题:基于多核学习整合文本信息的微博图片情绪分析 摘要:微博上,图片是表达用户情绪最重要的

PRICAI 2016 论文精选 | 最大间距二叉树纠错输出码

多类别分类问题在机器学习领域吸引了很多关注,传统的解决方案倾向于将其变为多个二元问题,相应的策略包括决策树.神经网络等等.本文被PRICAI 2016大会收录,提出了一种最大间距二叉树纠错输出码,对应的编码矩阵更加稳定和易识别. 标题:最大间距二叉树纠错输出码 摘要:编码是纠错输出码(ECOCs)中最重要的一步.传统的编码策略通常与数据无关.最近,提出的一些树形编码算法率先利用交互信息预估类间可分性,将二叉树自上而下分层分区,以获得一个编码矩阵.但这些标准通常是由一个非参数方法计算得到,一般来说

PRICAI 2016 论文精选 | 集到集视觉追踪

信号稀疏表示是过去近20年来信号处理界一个非常引人关注的研究领域,众多研究论文和专题研讨会表明了该领域的蓬勃发展.信号稀疏表示的目的就是在给定的 超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处 理,如压缩.编码等.本文介绍了一种新方法SSVT可以更有效的实现视觉追踪. 集到集视觉追踪(Set to Set Visual Tracking)   摘要:稀疏表示已经广泛的应用于视觉跟踪,实现了卓越的跟踪效