神经网络CNN训练心得--调参经验

1.样本要随机化,防止大数据淹没小数据

2.样本要做归一化。关于归一化的好处请参考:为何需要归一化处理
3.激活函数要视样本输入选择(多层神经网络一般使用relu)
4.mini batch很重要,几百是比较合适的(很大数据量的情况下)
5.学习速率(learning rate)很重要,比如一开始可以lr设置为0.01,然后运行到loss不怎么降的时候,学习速率除以10,接着训练
6.权重初始化,可用高斯分布乘上一个很小的数,这个可以看:权值初始化

7.Adam收敛速度的确要快一些,可结果往往没有sgd + momentum的解好(如果模型比较复杂的话,sgd是比较难训练的,这时候adam的威力就体现出来了)

8.Dropout的放置位置以及大小非常重要

9.early stop,发现val_loss没更新,就尽早停止

另:心得体会
深度学习真是一门实验科学,很多地方解释不了为什么好,为什么不好。

网络层数、卷积核大小、滑动步长,学习速率这些参数的设置大多是通过已有的架构来做一些微调

参考:知乎讨论 https://www.zhihu.com/question/41631631

时间: 2024-09-29 11:59:51

神经网络CNN训练心得--调参经验的相关文章

【直观梳理深度学习关键概念】优化算法、调参基本思路、正则化方式等

引言 深度学习目前已成为发展最快.最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用.然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解,这使得初学者经常卡在一些概念的理解上,读论文似懂非懂,十分吃力.另一方面,即使有了简单易用的深度学习框架,如果对深度学习常见概念和基本思路不了解,面对现实任务时不知道如何设计.诊断及调试网络,最终仍会束手无策. 本系列文章旨在直观系统地梳理深度学习各领域常见概念与基本思想,使读者对深度学习的重要概念

DeepMind提出快速调参新算法PBT,适用GAN训练(附论文)

从围棋到Atari游戏到图像识别和语言翻译,神经网络在各个领域都取得了巨大的成功.但是经常容易被忽视的是,神经网络在某个特定应用中的成功通常取决于在研究初始时所做的一系列选择,包括选择要使用的网络类型以及用于训练的数据和方法.目前,这些选择(被称作超参数)是通过经验.随机搜索或计算密集型的搜索过程来实现的. DeepMind在最近的一篇论文<基于群体的神经网络训练>(Population Based Training of Neural Networks)中,提出了一种新的训练神经网络的方法,

卷积神经网络CNN总结

从神经网络到卷积神经网络(CNN) 我们知道神经网络的结构是这样的:  那卷积神经网络跟它是什么关系呢? 其实卷积神经网络依旧是层级网络,只是层的功能和形式做了变化,可以说是传统神经网络的一个改进.比如下图中就多了许多传统神经网络没有的层次. 卷积神经网络的层级结构 数据输入层/ Input layer 卷积计算层/ CONV layer ReLU激励层 / ReLU layer 池化层 / Pooling layer 全连接层 / FC layer 1.数据输入层 该层要做的处理主要是对原始图

Fregata 机器学习算法库开源:快速,无需调参

一. 大规模机器学习的挑战 随着互联网,移动互联网的兴起,可以获取的数据变得越来越多,也越来越丰富.数据资源的丰富,给机器学习带来了越来越多,越来越大创造价值的机会. 机器学习在计算广告,推荐系统这些价值上千亿美元的应用中起到的作用越来越大,创造的价值也越来越大.但是越来越大的数据规模也给机器学习带来了很多挑战. 最大的挑战就是庞大的数据量使得对计算资源的需求也急剧增长.首先经典的机器学习算法其计算量基本上都是与训练数据条数或者特征数量呈二次方甚至是三次方关系的[1].即是说数据量或者特征数每翻

轻量级大规模机器学习算法库Fregata开源:快速,无需调参

一. 大规模机器学习的挑战 随着互联网,移动互联网的兴起,可以获取的数据变得越来越多,也越来越丰富.数据资源的丰富,给机器学习带来了越来越多,越来越大创造价值的机会. 机器学习在计算广告,推荐系统这些价值上千亿美元的应用中起到的作用越来越大,创造的价值也越来越大.但是越来越大的数据规模也给机器学习带来了很多挑战. 最大的挑战就是庞大的数据量使得对计算资源的需求也急剧增长.首先经典的机器学习算法其计算量基本上都是与训练数据条数或者特征数量呈二次方甚至是三次方关系的[1].即是说数据量或者特征数每翻

Top100论文导读:深入理解卷积神经网络CNN(Part Ⅰ)

更多深度文章,请关注:https://yq.aliyun.com/cloud 作者信息 Adrian Colyer:morning paper编辑.Accel Partners投资合伙人.SpringSource首席技术官.VMware技术总监. 领英:http://www.linkedin.com/in/adriancolyer/ Twitter:https://twitter.com/adriancolyer 本文介绍清单" Top100深度学习论文" 中几篇文章,现在将从&quo

matlab bp 神经网络-matlab实现BP神经网络,训练结果不好,附源代码

问题描述 matlab实现BP神经网络,训练结果不好,附源代码 希望大家看看,谢谢了!自己看了一整天都不知道哪里出现了问题,编程思想按照经典的机器学习的书 lr=0.05; %lr为学习速率:err_goal=0.1; %err_goal为期望误差最小值max_epoch=15000; %max_epoch为训练的最大次数:a=0.9; %a为惯性系数Oi=0;Ok=0; %置隐含层和输出层各神经元输出初值为0%提供两组训练集和目标值(3输入神经元,2输出)%X=[1 1;-1 -1;1 1];

Top100论文导读:深入理解卷积神经网络CNN(Part Ⅱ)

更多深度文章,请关注:https://yq.aliyun.com/cloud 作者信息 Adrian Colyer:morning paper编辑.Accel Partners投资合伙人.SpringSource首席技术官.VMware技术总监. 领英:http://www.linkedin.com/in/adriancolyer/ Twitter:https://twitter.com/adriancolyer 这篇文章介绍" top100深度学习论文"列表中卷积神经网络的第二部分,

一文读懂卷积神经网络CNN(学习笔记)

首先文章的提纲为: CNN栗子镇楼What is CNN 什么是卷积 什么是池化 Why CNN对CNN的其他一些理解CNN实现(接口) 1.CNN栗子(A Beginning Glimpse of CNN) Modern CNN since Yann LeCun 2. 上面是最经典和开始的两篇CNN的结构图 2.What is CNN? 神经网络?卷积? 2.1 什么是卷积? 卷积的定义 其连续的定义为: 特点: 2.2 离散卷积的栗子: 丢骰子时加起来要等于4的概率是多少? 二维离散的卷积