KDD2016论文精品解读(二)

联合编译:高斐,章敏,陈杨英杰

导读:KDD2016是首屈一指的跨学科会议,它聚集了数据科学,数据挖掘,知识发现,大规模数据分析和大数据方面的研究人员和从业人员。

论文一:在频率域中压缩卷积神经网络

摘要 

卷积神经网络(CNN)在计算机视觉的多个研究领域受到越来越广泛的应用。由于卷积神经网络能够通过利用数以百万计的参数,“吸收”大量的标记数据,这种神经网络的应用受到普遍关注。然而,随着模型尺寸不断增大,对分类器的储存与记忆要求也不断提升,如此便对许多应用,如手机及其他设备的图像识别,语音识别功能,形成阻碍。本文将呈现一种新型网络建构----对频率敏感的散列网(FreshNets),这种散列网是利用一个深度学习模型的卷积层与全面连接层之间固有存在的冗余建构形成,能够极大程度上节省记忆与存储消耗。学习卷积滤波器的权重通常是平稳和低频的,基于这一重大观察结果,我们首先将滤波器的权重转变为带有离散余弦变换的频域,使用低成本的散列函数随机将频率参数划分为散列桶位。被分配为同一个散列桶位的所有参数共享一个能够运用标准反向传播算法学会的单一值。为了进一步缩减模型的尺寸,我们将少数散列桶位分配给一些高频率组分,这些高频率组分通常不太重要。我们在八个数据集中对FreshNets进行评估,评估结果显示,与其他几种相关联的基线相比,FreshNets具备更高的压缩性能。

关键字:模型压缩;卷积神经网络;散列

第一作者简介

Wenlin Chen

学校:圣路易斯华盛顿大学计算机科学与工程系博士

主要研究领域:机器学习,数据挖掘,人工智能,其中尤其对深度学习和大规模机器学习两个领域感兴趣

相关学术成果:

·Strategies for Training Large Vocabulary Neural Language Models(Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016. (ACL-16))

·Compressing Convolutional Neural Networks in the Frequency Domain,(Proc. ACM SIGKDD Conference, 2016. (KDD-16))

·Deep Metric Learning with Data Summarization.European Conference on Machine Learning(2016 (ECML-16))

论文链接:原论文下载

论文二:多重任务特征交互学习

摘要 

线性模型在各种各样的数据挖掘与机器学习算法中均得到了广泛应用。这类模型的一个主要局限性在于缺乏从特征交互过程中获取预测性信息的能力。尽管引进高阶特征交互术语能够克服这一缺点,这一方法仍将在极大程度上增加模型的复杂性,并且为处理学习过程中过度拟合现象带来重大挑战。当出现多种相互关联的学习任务,这些任务中的特征交互通常是相互关联的,为这种关联关系建模对于提高这些特征交互学习的普适性起到关键性的作用。本文我们提出一种新型多重任务特征交互学习(MTIL)框架,以在高阶特征交互过程中利用各种任务之间的联系。具体来讲,我们用张量来表示多重任务中的特征交互,利用这一张量,我们将关于任务关联的先前知识纳入不同的结构化调整过程中。在此学习框架下,我们制定出两种具体的方法,即共享式交互方法和嵌入式交互方法。前者认为,所有的任务具有共同的交互模式,后者则认为,多重任务的特征交互具有共同的子空间。我们为制定出这两种方案提供了高效的算法。有关这类合成的且真实的数据集的广泛实证研究证实了我们所提出的多重任务特征交互学习框架的有效性。

关键字:多重任务学习;特征交互;机构化调整;张量标准

第一作者简介

Kaixiang Lin

学校:密歇根州立大学计算机科学与工程系助教

主要研究领域:机器学习与数据挖掘

相关学术成果:

·Online Multi-task Learning Framework for Ensemble Forecasting( submitted to TKDE)

·Synergies that Matter: Efficient Interaction Selection via Sparse Factorization Machine 

(SDM,2016) 

·GSpartan: a Geospatio-Temporal Multi-task Learning Framework for Multi-location Prediction. (SDM,2016) 

下载链接:原论文下载

论文三:私人助理的语境意图追踪(KDD2016最佳学生论文)

摘要

在智能私人助理方面,一种新的建议形式正在兴起如Apple’s Siri、Google Now和 Microsoft Cortana,它们可以“在恰当的时间推荐恰当的信息”,并积极主动地帮助你“把事情解决”。这种类型的推荐需要精确的跟踪用户当时的意图,即,用户打算知道什么类型的信息(例如,天气,股票价格),和他们打算完成什么任务(例如,演奏音乐,打车)。用户的意图与语境是密切相关的,其中包括外部环境,如时间和地点,以及用户的内部活动(可以由个人助理感觉到)。语境和意图之间表现出复杂的共同发生和序列相关,且语境信号也非常混杂、稀疏,这使得建模语境—意图之间的关系,变成了一项具有挑战性的任务。为了解决意图跟踪问题我们提出了Kalman filter regularize PARAFAC2 (KP2) 实时预报模型,它可以细密的表示语境和意图之间的结构和共同运动。KP2模型在用户上利用了协同能力,并学习每个用户的个性化动态系统,以确保高效的实时预测用户意图。大部分实验使用了来自商业个人助理的真实世界数据集,结果显示KP2模型明显优于其它的所有方法,且在个人助理中部署大规模的主动建议系统方面,提供了鼓舞人心的启示。

关键词:建议;实时预测;多任务学习

第一作者简介

Yu sun

学校:墨尔本大学计算与信息系统系

研究方向:语境行为挖掘,强化学习,最优位置发现,空间/时间索引,算法设计/分析。

相关学术成果:

·A Contextual Collaborative Approach for App Usage Forecasting,(UbiComp, 2016)

·Reverse Nearest Neighbor Heat Maps: A Tool for Influence Exploration,(ICDE,966-977, 2016)

下载链接:原论文下载

论文四:展示广告中删失数据无偏学习的投标意识梯度下降算法

摘要

实时竞价显示广告中,每个印像的广告位是通过拍卖机制进行出售的。对于一个广告主来说,广告活动的信息是不完整的——只有在广告主的出价赢得了相应的广告拍卖后,用户的反馈(例如,点击或转换)和每个广告印像的市场价格才可以被观察到。预测,如市场价分布预测,点击率(CTR)估计,和投标优化,都是运行在预投标阶段通过全量投标请求数据上的。然而,训练数据是在后投标阶段聚集的——对获胜印象具有严重的偏向。学习这种删失数据的普遍方法是重新加权数据实例,以纠正训练和预测之间的不一致性。然而,在如何获得独立于投标策略的权重以及将它们整合到最终的CTR预测和投标生成步骤的研究非常很少。本文中,我们在这种删失拍卖数据下制定了CTR评估和投标优化。通过在一个生存模型上的推导,我们表明,以前的投标信息被自然地纳入到投标意识梯度下降(BGD)算法中,它控制了实现无偏学习的梯度的权重和方向。基于两个大规模真实世界的数据集经验学习,这种方法在我们的解法中显示出了卓越的性能优势。学习框架已部署在Yahoo的实时竞价平台,且在一个在线A/B测试上,得到了CTR预估2.97%的AUC上升,和投标优化任务中9.30% 的eCPC下降。

关键词:无偏学习,删失数据,实时竞价,展示广告。

第一作者简介

Weinan Zhang(张伟楠)

学校:伦敦大学学院计算机科学系/2016年8月进入上海交通大学任职助理教授

研究方向:机器学习,大数据挖掘及其在计算广告和推荐系统中的应用

相关学术成果:

·User Response Learning for Directly Optimizing Campaign Performance in Display Advertising(CIKM 2016)

·Learning, Prediction and Optimisation in RTB Display Advertising(CIKM,October 2016)

下载链接:原论文下载

论文五:推荐系统的协同知识库嵌入

摘要:

在不同的推荐技术中,协同过滤通常因为稀疏的用户-对象交互而性能受限。为了解决这些问题,我们通常用辅助信息来提高性能。由 于网络上的信息快速收集,知识库能提供异构信息,包括含不同语义的结构化和非结构化数据,它们可以被用到各类应用中。在本文中,我们研究如何利用知识库中 的异构信息,来提高推荐系统的质量。首先,通过利用知识库,我们设计了三个组件分别从结构内容,文本内容和视频内容中提取对象的语义表述。具体来说,我们 采用的异构网络嵌入方法,称为TransR,考虑通过节点和关系的异质性来提取对象的结构表示。我们采用堆叠降噪自动编码器和堆叠卷积自动编码器,这是基 于嵌入技术的深度学习的两种类型,来分别提取对象的文本表示和图像表示。最后,我们提出了最终的集成框架,称为协同知识库嵌入(CKE),来联合学习协同 过滤出的潜在表征以及知识库中对象的语义表征。为了评估每个嵌入组件以及整个系统的性能,我们通过两个不同情境的现实世界数据集,进行了广泛的实验。结果 表明,我们的方法优于几种被广泛采用的最先进的推荐方法。

 关键词:推荐系统;知识库嵌入;协同学习

第一作者简介

Fuzheng Zhang(张富峥

机构:微软亚洲研究院副研究员,中国科技大学计算机系博士。

研究方向:用户模型、推荐系统、深度学习、情感检测、社交网络、时空数据挖掘、普适计算、大规模系统。

作者信息链接:https://www.microsoft.com/en-us/research/people/fuzzhang/

 下载链接:原论文下载

论文六:鲁棒性影响最大化

摘要

在本文中,对于深入研究影响力最大化,我们在边际影响力概率预估中提出了关于不确定性的重要问题,即在社交网络中,找到可以最 大化传播影响力的种子节点k的任务。我们提出的鲁棒性影响力最大化的问题,就是给定输入参数的不确定性,在所选种子设置和最佳种子设置的影响力传播之间最 大化最坏情况下的比例。我们设计了一种算法,依靠方案相关边界来解决这个问题。我们通过进一步研究均匀采样和自适应采样方法来有效减少参数不确定性,并提 高了影响力最大化任务的鲁棒性。我们的实验结果表明,参数不确定性可能会严重影响影响力的最大化,并且之前的研究也表明,经验影响的概率会因为参数预估不 确定性较大,而导致鲁棒性影响最大化的性能很差。基于自适应抽样方法的信息叠加也许可以有效改善影响力最大化的鲁棒性。

关键词:社交网络;影响最大化;鲁棒性优化;信息传播

第一作者简介

陈卫

学校:微软亚洲研究院高级研究员,清华大学客座教授,中国科学院计算所客座研究员,多个国际顶级数据挖掘和数据管理会议(KDD、 WSDM、 SIGMOD、 ICDE、 WWW等)的程序委员会成员,中国计算机学会大数据专家委员会首批成员,《大数据》期刊编委。

研究方向:社交与信息网络算法和数据挖掘、网络博弈论和经济学、在线学习等。

近几年在社会影响力最大化方面的一系列开创性研究成果:在KDD、 ICDM、SDM、 WSDM、 ICWSM、 AAAI、 VLDB等顶级数据挖掘、人工智能和数据库学术会议上发表后得到良好反响,并引发这一方向众多的后续工作。最早发表的KDD’ 2009论文被引用次数排同会议所有论文第二位,而第二篇KDD’ 2010论文被引用次数排同会议所有论文第一位。 2013年与另外两位合作者合写了一部关于影响力传播和最大化的专著(Information and Influence Propagation in Social Networks, Morgan& Claypool, 2013),系统总结了这方面的研究成果和最新发展。另外,在与社会和信息网络相关的方向,如社区检测、网络中心化度量排序、网络博弈、网络定价、网络激励机制等方面也都做出开创性的工作,其中将博弈论引入网络社区检测的论文获得了2010年欧洲机器学习及数据挖掘会议最佳学生论文奖。

 下载链接:原论文下载

via:KDD2016 accepted-papers

本文作者:章敏

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-03 03:09:46

KDD2016论文精品解读(二)的相关文章

KDD2016论文精品解读(一)

联合编译:章敏,高斐,陈杨英杰 导读:KDD2016是首屈一指的跨学科会议,它聚集了数据科学,数据挖掘,知识发现,大规模数据分析和大数据方面的研究人员和从业人员. 论文一题目:稳定流体近似的卷积神经网络 摘要 在空气动力学相关设计.分析和优化问题方面,流场是通过使用计算流体动态学(CFD)求解器进行模拟的.然而,CFD模拟通常是计算昂贵,内存要求大.且耗时的迭代过程.CFD的这些缺点,限制了设计空间探索的机会,同时也破灭了交互设计的想法.我们提出了一个通用且灵活的近似模型,用于实时预测基于卷积神

【阿里ICCV论文技术解读】基于层次化多模态LSTM的视觉语义联合嵌入

精准描述商品:计算机视觉和自然语言处理的联合 近年来, 随着深度学习技术的快速发展, 人们开始尝试将计算机视觉(Vision)和自然语言处理(Language)两个相对独立的领域联合起来进行研究, 实现一些在过去看来非常困难的任务,例如"视觉-语义联合嵌入(Visual-Semantic Embedding)".该任务需要将图像及语句表示成一个固定长度的向量,进而嵌入到同一个矢量空间中.这样,通过该空间中的近邻搜索可以实现图像和语句的匹配.检索等. 视觉语义联合嵌入的一个典型应用就是图

CVPR 2017最佳论文作者解读:DenseNet 的“what”、“why”和“how”|CVPR 2017

雷锋网 AI 科技评论按:CVPR 2017上,康奈尔大学博士后黄高博士(Gao Huang).清华大学本科生刘壮(Zhuang Liu).Facebook 人工智能研究院研究科学家 Laurens van der Maaten 及康奈尔大学计算机系教授 Kilian Q. Weinberger 所作论文<Densely Connected Convolutional Networks>当选 CVPR 2017 最佳论文,与苹果的首篇公开论文<Learning From Simulate

【LaTeX排版】LaTeX论文排版&amp;lt;二&amp;gt;

1.目录的生成     直接使用命令\tableofcontents即可.其默认格式如下: 我们会发现,这样的格式不一定是我们所期望的.比如说,我们也希望章标题与页码之间也有点连线,并且也希望将致谢.附录.参考文献也加进目录中.这时我们可以通过以下语句来改变目录格式: 首先在导言区加入包:\usepackage{titletoc} 然后设置格式: \titlecontents{chapter}%这里可以更改chapter来设置章.节 [0.0em] {\songti\zihao{-4}\bfse

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

CVPR是IEEE一年一度的计算机视觉与模式识别技术会议,也是计算机视觉的世界三大顶会之一.2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开,雷锋网将赴前线做覆盖与报道. 论文一:ResNext:Aggregated Residual Transformations for Deep Neural Networks 深层神经网络的聚合残差变换 论文作者:Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu1,

人性不变,泡沫永存!27前年经典诺奖得主论文再解读

2015年6月15日开始,上证指数从最高点5178自由落体到3373点,跌幅达34.9%,深圳成指跌40.4%,创业板指数跌42.9%.千股跌停.千股停牌.千股涨停.千股复牌,我们和市场一起见证了这场焦灼亿万股民,重创国民财富的股灾.简单的数据,隐藏了多少人的迷茫与无奈,悲伤与痛苦. 历史总是惊人的相似.1987年8月到10月,美国标普500指数下跌35.9%,道琼斯指数下跌40.9%,尤其是最后几天的单日巨大跌幅(美国股市无涨跌停限制),让整个市场弥漫着世界末日般的绝望和彷徨.抚今忆昔,令人不

兰亭集势高管解读二季财报:未考虑到对手冲击

摘要: 北京时间8月20日晚间消息, 兰亭集势 (NYSE: LITB )今天公布了2013财年 第二季度财报 .报告显示,公司第二季度净营收为7220万美元,比去年同期的4730万美元增长52.6%:净利润为60万美元, 北京时间8月20日晚间消息, 兰亭集势 (NYSE: LITB )今天公布了2013财年 第二季度财报 .报告显示,公司第二季度净营收为7220万美元,比去年同期的4730万美元增长52.6%:净利润为60万美元,去年同期净亏损为140万美元. 财报发布后,兰亭集势CEO郭去

SEDA源码解读(二)

接着上一篇的话题,本篇继续探讨SEDA的实践项目--sandstorm. 首先,看看package里面的类文件: ResponseTimeControllerIF:该接口代表一个响应时间的控制器,通常情况下被stage的线程管理器执行,以执行事件准入控制策略来达到特定响应时间的目标. StageStatsIF:该接口允许各种各样的系统组件在执行时记录以及收集关于stage的统计. StageWrapperIF:它是一个应用程序stage的内部表示,一个applicationstage包含一个ev

“小论文”杂谈之二:如何选择一篇好文章

        我前段时间写了一篇文章,叫做<"小论文"杂谈>,是有关自己就研究生写小论文的一些心得体会,点击率挺高的.感谢大家的支持!这也可以看出大家对于"搞科研"还是极有热情!          最近,我又看了一些论文,也有同学问我怎样才能找到比较好的文章来阅读.有老师说过,你的文章写得好不好,关键在于参考文献选得好不好.这句话很有道理.如果我们读到好文章,那么自己的思路就会豁然开朗,就会有一种"柳暗花明又一村"的感觉:相反,如果