一份不可多得的深度学习技巧指南

更多深度文章，请关注云计算频道：https://yq.aliyun.com/cloud

常言道，师傅领进门，修行靠个人，相信很多人或多或少是在别人的建议或带领下步入深度学习这个大坑，然后师傅说深度学习是个玄学，后面就靠个人修行，瞬间就懵了对不对？可能后面经过自己不断实验积累相关经验，会有一些自己的学习心得。本文可谓是深度学习中的一份秘籍，帮助你少走一些弯路。在本文中，列举了一些常用的机器学习的训练技巧，目的是对这些技巧进行简单的介绍并说明它们的工作原理。另外一些建议是斯坦福的CS231n课程及之前总结的网络结构。

本文的目录如下：

数据预处理
初始化
训练
正则化
网络结构
自然语言处理
增强学习
网络压缩

数据预处理

（本部分原作者没有写，以个人的理解及相关补充这部分内容）

What：输入神经网络数据的好坏直接关系着网络训练结果，一般需要对数据进行预处理，常用的数据预处理方式有：

去均值：每个原始数据减去全部数据的均值，即把输入数据各个维度的数据都中心化到0；
归一化：一种方式是使用去均值后的数据除以标准差，另外一种方式是全部数据都除以数据绝对值的最大值；
PCA/白化：这是另外一种形式的数据预处理方式，一种方式是降维处理，另外一种是进行方差处理；

Why：通过对数据进行预处理能够使得它们对模型的影响具有同样的尺度或其他的一些目的。

Ref：CS231n Convolutional Neural Networks for Visual Recognition.

初始化

What：权重若初始化合理能够提升性能并加快训练速度，偏置一般设置为0，对于权重而言，建议统一到一定区间内：

对于线性层^[1]：区间为[-v,v]，v = 1/sqrt(输入尺寸)，sqrt表示开根号；
对于卷积层^[2]：区间为[-v,v]，v = 1/sqrt(卷积核的宽度x卷积核的高度x输入深度)；
批量标准化^[3]在某些方面的应用降低了调整权值初始化的需要，一些研究结果页提出了相应的替代公式。

Why：使用默认的初始化，每个神经元会随着输入数量的增多而存在一个方差，通过求根号缩放每个权重能确保神经元有近似的输出分布。

Ref：

1.Stochastic Gradient Descent Tricks, Leon Bottou；
2.在Torch中默认这么操作；
3.Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, S. Ioffe and C. Szegedy；

What：对于长短期记忆网络（LSTM），遗忘偏置一般设置为1，可以加快训练过程。

Why：直觉是训练开始时，想要信息在细胞之间传播，故不希望细胞忘记它的状态。

Ref：An Empirical Exploration of Recurrent Network Architectures, Rafal Jozefowicz et al.

What：对于t-分布领域嵌入算法（t-SNE），原作者建议对于大小为5000~10000之间的数据集，将困惑度设置为5和50之间^[1]，对于更大的数据集，相应的困惑度也会增。

Why：困惑度决定了每个点的高斯分布的方差大小，更小的困惑度将获得更多的集群，大的困惑度与之相反，太大的困惑度没有任何意义；另外需要考虑的是画出的聚类不能保留原有的规模，聚类之间的距离不一定代表原始的空间几何，不同的困惑度能在数据结构上提供互补的信息，每次运行都会产生不同的结果^[2]。

Ref：

训练

What：除了使用真值硬化目标外，同样可以使用软化目标（softmax输出）训练网络。

Ref：Distilling the Knowledge in a Neural Network / Dark knowledge, G. Hinton et al.

What：学习率可能是需要调参中最重要的一个参数，一种策略是选择一些参数均有随机化学习率，并观察几次迭代后的测试误差。

参数	什么情况下增加性能	原因	注意事项
隐藏节点的数量	增加	增加隐藏节点的数量提升了模型的表示能力	隐藏节点的增加会增加模型每次操作的时间和内存代价
学习率	调整优化	一个不合适的学习率会导致模型效率很低
卷积核的宽度	增加	增大核宽度提升模型的参数个数	更宽的核导致一个更窄的输出维度
隐性的零填充	增加	在卷积前补零保持大尺寸的表示	增加了大多数操作的时间和内存代价
权值衰减系数	降低	降低权值衰减系数释放模型的参数
Dropout的概率	降低	丢失更少的节点使得单元有更多的机会去拟合训练集