2017年深度学习必读31篇论文(附下载地址)

2017年即将擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文,包括架构/模型、生成模型、强化学习、SGD & 优化及理论等各个方面,有些论文名扬四海,有些论文则非常低调。

一如既往,首先,标准免责声明适用,因为今年仅与GAN有关的论文就超过1660篇。我肯定会有疏漏,试图缩减到每两周一篇论文,包含了Imperial Deep Learning Reading Group上的大量素材。无论如何,我们开始吧。

架构/模型

今年的Convnet网络架构已经少得多,一切都稳定了。 有些论文肯定是在推动这项研究。 其中首先是安德鲁·布鲁克(Andrew Brock)的破解SMASH,尽管有ICLR的评论,但它已经在1000个GPU上进行了神经架构搜索。

SMASH:基于超网络的模型结构搜索
SMASH : one shot model architecture search through Hypernetworks
论文下载地址:
https://arxiv.org/pdf/1708.05344.pdf

DenseNets(2017更新版)是一个印象深刻又非常单纯的想法。TLDR是“计算机视觉,眼+皮毛=猫,所以万物互联(包括层)”

密集的连接卷积神经
Densely connected convolutional networks
论文下载地址:
https://arxiv.org/pdf/1608.06993.pdf

在CNNs,一个非常被低估的理念是小波滤波器组系数散射变换(conv+maxpool和ReLUctant组建小波理论)。不知何故,令人惊讶的是,这揭示了为什么一个ConvNet前几层像Gabor滤波器,以及你可能不需要培训他们。用Stephane Mallat的话,“我对它的工作原理非常吃惊!”见下文。

缩放散射变换
Scaling the Scattering Transform
论文下载地址:
https://arxiv.org/pdf/1703.08961.pdf

在维基百科上,Tensorized LSTM是新的SOTA,有人英语的编码限制是1.0,1.1 BPC(作为参考,LayerNorm LSTMs大约是1.3 bpc)因为新颖,我更愿意把这篇论文定为“超级网络的复兴之路”。

序列学习Tensorized LSTMs
Tensorized LSTMs for sequence learning
论文下载地址:
https://arxiv.org/pdf/1711.01577.pdf

最后,无需多言。

胶囊间动态路由
Dynamic Routing Between Capsules
论文下载地址:
https://arxiv.org/pdf/1710.09829.pdf

EM路由矩阵胶囊
Matrix capsules with EM routing
论文下载地址:
https://openreview.net/pdf?id=HJWLfGWRb

生成模型

我故意遗漏了英伟达关于GAN网络逐渐增大的令人颇为震惊的论文。

先用自回归家庭–Aaron van den Oord的最新力作,vq-vae,是其中的一个文件,看起来明显的滞后,但想出背景渐变止损功能也是不小的壮举。我敢肯定,一堆的迭代,包括包在ELBO’ed Bayesian层中的ala PixelVAE将会发挥作用。

神经离散表示学习
Neural Discrete Representation Learning
论文下载地址:
https://arxiv.org/pdf/1711.00937.pdf

另一个惊喜来自并行WaveNetwavenet。当每个人都在期待着与Tom LePaine的工作成果保持一致,DeepMind给我们师生分离,并通过解释高维各向同性高斯/物流潜在空间,作为一个可以通过逆回归流自噪声整形的过程,。非常非常整洁。

并行Wavenet
Parallel Wavenet
论文下载地址:
https://arxiv.org/pdf/1711.10433.pdf

头号文件,没有人预料到- Nvidia公司制定了标准。GAN理论完全代替了Wassersteinizing (Justin Solomon的力作),仅保持KL损失。用数据分布的多分辨率近似摒弃了不相交的支持问题。这仍然需要一些技巧来稳定梯度,但经验结果不言自明。

GAN逐渐增长
Progressive growing of GANs
论文下载地址:
https://arxiv.org/pdf/1710.10196.pdf

而今年早些时候Peyre和genevay负责的法国学校定义了最小Kantorovich Estimators。这是Bousquet主导的谷歌团队,该团队曾写下了 VAE-GAN的最终框架。这篇WAAE论文可能是ICLR2018最顶级的论文之一。

VeGAN手册
The VeGAN cookbook
论文下载地址:
https://arxiv.org/pdf/1705.07642.pdf

Wasserstein自动编码器
Wasserstein Autoencoders
论文下载地址:
https://arxiv.org/pdf/1711.01558.pdf

在变分推理面前,没谁比Dustin Tran从强化学习策略和GAN中借鉴到的思路更好,再次推动了先进的VI。

层次式模型
Hierarchical Implicit Models
论文下载地址:
https://arxiv.org/pdf/1702.08896.pdf

强化学习

“被软件/ max-entropy Q-learning主导了一年,我们错了,这些年!
Schulman证实了RL算法的主要的两个成员之间的的等价性。里程碑式的论文,”Nuff 称。

策略梯度与Soft Q-learning的等价性
Equivalence between Policy Gradients and Soft Q-learning
论文下载地址:
https://arxiv.org/pdf/1704.06440.pdf

他有没有在非常仔细的用数学和重新做分区函数计算来证实路径的等价性?没有人知道,除了Ofir:

缩小RL策略和价值之间的差距
Bridging the gap between value and policy RL
论文下载地址:
https://arxiv.org/pdf/1702.08892.pdf

另一篇被低估的论文,Gergely通过找出RL程式和convex 优化理论的相似点,默默的超越了所有人。今年IMHO有关RL论文的佳作,不过知名度不高。

统一的熵规则MDP的观点
A unified view of entropy-regularized MDPs
论文下载地址:
https://arxiv.org/pdf/1705.07798.pdf

如果David Silver的Predictron因某种方式丢掉雷达在ICLR 2017被拒绝,那么Theo的论文就像是一个双重的观点,它以优美而直观的Sokoban实验结果来启动:

想象力增强剂
Imagination-Augmented Agents
论文下载地址:
https://arxiv.org/pdf/1707.06203.pdf

马克·贝莱马尔(Marc Bellemare)发布了另外一个转型的论文 - 废除了所有的DQN稳定插件,并简单地学习了分发(并且在这个过程中击败了SotA)。 漂亮。 许多可能的扩展,包括与Wasserstein距离的链接。

有分位数回归的RL
A distributional perspective on RL
论文下载地址:
https://arxiv.org/pdf/1707.06887.pdf

分布RL的分布视角
Distributional RL with Quantile Regression
论文下载地址:
https://arxiv.org/pdf/1710.10044.pdf

一个简单,但非常有效,双重whammy的想法。

勘探用噪声网络
Noisy Networks for Exploration
论文下载地址:
https://arxiv.org/pdf/1706.10295.pdf

当然,如果没有AlphaGo Zero的话,这个列表还是不完整的。 将策略网络MCTS前后对齐的思想,即MCTS作为策略改进算法(以及使NN近似误差平滑而不是传播的手段)是传说的东西。

在没有人类知识的情况下掌控Go游戏
Mastering the game of Go without human knowledge
论文下载地址:
https://deepmind.com/documents/119/agz_unformatted_nature.pdf

SGD & 优化

对于为什么SGD在非凸面情况下的工作方式(从广义误差角度来看如此难以打败),2017年已经是一年一度的成熟了。

今年的“最技术”论文获得者是Chaudhari。 从SGD和梯度流向PDE几乎连接了一切。 堪称遵循并完成“Entropy-SGD”的杰作:

深度放松:用于优化深度网络的偏微分方程
Deep Relaxation : PDEs for optimizing deep networks
论文下载地址:
https://arxiv.org/pdf/1704.04932.pdf

贝叶斯认为这是Mandt&Hoffman的SGD-VI连接。 如你所知,我多年来一直是一个繁忙的人,原文如此。

SGD作为近似贝叶斯推断
SGD as approximate Bayesian inference
论文下载链接:
https://arxiv.org/pdf/1704.04289.pdf

前面的文章取决于SGD作为随机微分方程的连续松弛(由于CLT,梯度噪声被视为高斯)。 这解释了批量大小的影响,并给出了一个非常好的chi-square公式。

批量大小,diffusion近似框架
Batch size matters, a diffusion approximation framework
论文下载地址:
https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/

又一篇受Ornstein-Uhlenbeck启发的论文,得到了类似的结果,出自Yoshua Bengio实验室:

影响SGD最小值的三个因素
Three factors influencing minima in SGD
论文下载地址:
https://arxiv.org/pdf/1711.04623.pdf

最后,又一篇Chandhari的论文,讲述SGD-SDE-VI三位一体:

SGD执行VI,收敛到限制周期
SGD performs VI, converges to limit cycles
论文下载地址:
https://arxiv.org/pdf/1710.11029.pdf

理论

我坚信在解释深度学习为什么有用方面,答案将来自谐波/二阶分析和信息论与基于熵的测量之间的交集。 Naftali Tishby的想法虽然因为最近ICLR 2018提交的内容引发了争议,但这仍然使我们更加接近理解深度学习。

论通过信息论揭开深度网络黑箱
Opening the black box of deep networks via information
论文下载地址:
https://openreview.net/pdf?id=ry_WPG-A-

论深度学习的信息瓶颈理论
On the information bottleneck theory of deep learning
论文下载地址:
https://arxiv.org/pdf/1703.00810.pdf

同样,来自ICLR2017的一篇漂亮的论文对信息瓶颈理论采取了一种变化的方法。

深度变分的信息瓶颈
Deep variational information bottleneck
论文下载地址:
https://arxiv.org/pdf/1612.00410.pdf

今年已经有几十亿个生成模型,12亿个因子分解对数似然的方法,大都可以归在凸二元的下面。

A Lagrangian perspective on latent variable modelling
对潜变量建模的拉格朗日观点
论文下载地址:
https://openreview.net/pdf?id=ryZERzWCZ

最后这篇论文展示了惊人的技术实力,并且告诉我们,数学深度学习的军备竞赛仍然十分活跃!这篇论文结合了复杂的分析,随机矩阵理论,自由概率和graph morphisms,得出了对于神经网络损失函数的Hessian特征值的一个精确的定律,而图(graph)的形状只在经验上是已知的,这一点在Sagun等人的论文中有论述。必读。

通过RMT看神经网络损失曲面几何
Geometry of NN loss surfaces via RMT
论文下载地址:
http://proceedings.mlr.press/v70/pennington17a/pennington17a.pdf

深度学习非线性RMT
Nonlinear RMT for deep learning
论文下载地址:
http://papers.nips.cc/paper/6857-nonlinear-random-matrix-theory-for-deep-learning.pdf

时间: 2024-09-28 02:29:50

2017年深度学习必读31篇论文(附下载地址)的相关文章

独家丨2017全国深度学习技术应用大会回顾:传统的AI研究方法,在DL时代该如何变革?

雷锋网(公众号:雷锋网)按:2016年无疑是深度学习最为火热的一年,深度学习在语音.图像.自然语言处理等领域取得非常突出的成果,成了最引人注目的技术热点之一.雷锋网也报道过多次关于Google.Facebook.微软.百度在内的各大技术巨头都在不遗余力地推进深度学习的研发和应用. 2017年深度学习的势头依旧迅猛,并以更快的速度渗透在各个行业当中,对世界产生深远影响. 深度学习不但使得机器学习能够实现众多的应用,而且拓展了人工智能的领域范围,并使得机器辅助功能都变为可能.其应用领域正在加速渗透到

六张图带你全方位看懂EMNLP 2017,神经网络和深度学习投稿占总论文2/3

在9月9日自然语言处理领域顶级会议 EMNLP 2017的开幕式上,大会主席Martha Palmer向我们展示了一系列关于EMNLP 2017的论文录取情况.                                                   总的来说,这次会议共收到有效投稿论文1466篇,收录的有323篇,录取率约为23%. 其中长论文共有895篇初始投稿,被审核了836篇,收录216篇,接收率大约占26%.短论文的初始投稿共有614篇,被审核585篇,收录107篇,相比长论

深度学习盛会ICLR2017最佳论文都是啥?,雷锋网带你5min过重点(附论文链接)

雷锋网编者按:万众瞩目的2017年ICLR 于今天在法国召开.该大会是Yann LeCun .Yoshua Bengio 等几位行业顶级专家于2013年发起.别看它历史不长,影响力却不小,如今已成为深度学习领域一个至关重要的学术盛事. 据雷锋网消息,ICLR论文评选结果于今日新鲜出炉.经过列为评委的火眼金睛,在507份论文中共有15篇论文成功进入口头展示阶段,181篇进入海报展示阶段.                                除了这些被选入ICLR 2017的论文,还有三篇

处女作就拿下 KDD 双料最佳论文runner-up,「半路出家」的他用深度学习研究气候问题(附讲解视频)

第一次投递论文,就中了 KDD,是什么样的体验? 第一次投 KDD,不仅中了,还同时获得了最佳论文 runner-up和最佳学生论文 runner-up,又是什么样的体验? 这两个知乎体问题,邀请东北大学 SDS(Sustainability & Data Science)实验室的博士生 Thomas Vandal 来回答最合适不过了.他的处女作<DeepSD: Generating High Resolution Climate Change Projections through Sin

2017年深度学习框架之争——看谁主沉浮?

在过去的两年多时间里,各大公司或研究机构推出自己的深度学习框架,比如Caffe.TensorFlow等,并且关于深度学习相关的框架也在随着时间不断地发生变化.Theano是第一个被广泛使用的深度学习框架,该框架是由深度学习领域中的大牛Yoshua Bengio牵头.MILA创建.然而,在今年的九月份,MILA宣布在2018年更新完最后一版Theano后,将不再继续开发该框架.这一消息来得并不是很出人意外.在过去的几年里,一些不同的开源Python深度学习框架被引入,这些深度学习框架通常是由一家大

2017年深度学习十大趋势预测

本文作者曾经多次预测了技术发展的趋势,最近的一次预测是"2011年软件发展的趋势与预测".10项预言中,准确地命中了6项,比如JavaScript VM.NoSQL.大数据分析.私有云.Scala语言等等.今年,他对深度学习的发展趋势做了一个预测,主要是研究领域的趋势预测,而不是工业界的应用. 以下是作者对2017年度的预测内容. 硬件将加速倍增摩尔定律 作者根据其观察到Nvidia和Intel的发展动态,认为这是显而易见的趋势.由于Nvidia具有完整的深度学习生态系统,它们在整个2

10个深度学习软件的安装指南(附代码)

由于近期论文的需要,我搭建了一个基于 Ubuntu 和英伟达的深度学习环境.尽管已经有很多非常棒的关于英伟达驱动和 CUDA 的安装指南, 但依然没有详尽的深度学习环境搭建指南.另外,我需要查阅很多文档来熟悉细节,其中一些细节还有待完善,甚至还有一些包含语法错误.因此我决定把我这段时间查阅的文档(见参考链接)做个总结. 该指南会安装如下内容 操作系统(Ubuntu) 4 个驱动和库 5 个 Python DL 库(TensorFlow,Theano,CNTK,Keras 和 PyTorch) 下

《深度学习:Java语言实现》一一1.3人工智能与深度学习

1.3人工智能与深度学习 机器学习是人工智能第三波浪潮中碰撞出来的火花,作为一种数据挖掘方法,它既实用又强大:然而,即便采用了这种新的机器学习方法,要实现真正的人工智能似乎依旧遥遥无期.因为定义特征一直需要人为干预,这是阻挡机器学习实现人工智能的一面高墙.看起来第三次人工智能的浪潮也会无疾而终.然而,出人意料的是,这波浪潮并未消退,反而出现了另一波新的浪潮.触发这波新浪潮的就是深度学习. 随着深度学习的出现,至少在图像识别和语音识别领域,机器学习已经可以凭借自身的能力从输入数据中判断"哪些是特征

ACL 第一天:Tutorial钟爱深度学习,唯一一个workshop关注女性群体| ACL 2017

雷锋网AI科技评论按:计算机语言学和自然语言处理最顶尖的会议之一ACL 将于2017年7月30日至8月4日在加拿大温哥华举行.雷锋网(公众号:雷锋网) AI 科技评论将赴前线带来一手报道,并对论文及大会概况进行梳理. 今天是预热 tutorial 环节,也是 ACL 会议延续至今的传统,旨在帮助研究领域的新手们了解计算机语言学与自然语言处理的核心技术,同时也会介绍目前这些分领域的一些前沿内容. 今年的 Tutorial 主席是科罗拉多大学的 Jordan Boyd-Grabe 和柏林洪堡大学的