【11分钟训练完ImageNet】DNN训练再破纪录,1024 CPU Caffe开源

此前,伯克利、TACC和UC戴维斯的研究人员使用新算法,在24分钟内训练完AlexNet,1小时训练完ResNet,创下了纪录。现在,他们继续推进,使用1024个CPU,在11分钟内训练完AlexNet,48分钟训练完ResNet-50。研究人员表示,源代码不久后将在Intel Caffe发布。

先来看论文摘要:

自创建以来,ImageNet-1k基准测试集被用于确定各种深度神经网络(DNN)模型分类的精度,作为基准发挥了重要的作用。近年来,它也成为评估不同的DNN训练方法的主要标准。

使用单块NVIDIA M40 GPU,在ImageNet-1k训练ResNet-50(90-epoch)需要14天的时间。训练总共需要10^18次单精度运算。另一方面,目前世界上最快的超级计算机,每秒可以完成2*10^17次单精度运算。如果能够充分利用超级计算机训练DNN,我们应该能够在5秒内训练完ResNet-50(ImageNet-1k,90-epoch)。

为了弥补性能的差距,一些研究人员已经把工作重点放在探索如何有效利用大规模并行处理器训练深度神经网络上面。大多数扩展ImageNet训练的成功方法,都使用了同步随机梯度下降(SGD)。但是,为了扩展同步SGD,必须增加每次迭代中使用的批量的大小。

因此,对许多研究人员而言,扩展DNN训练,实际上就成了开发方法,确保在不降低精度的前提下,增加固定epoch数据并行同步SGD中的批量大小。

过去的两年里,我们已经看到批量大小以及成功使用的处理器数量,从1K批次/128个处理器,增加到8K批次/256个处理器。最近发表的LARS算法将一些DNN模型的批量进一步增加到了32K。继这项工作之后,我们希望弄清LARS是否可以用来进一步扩大DNN训练中有效使用的处理器的数量,从而进一步缩短训练的总时间。

在本文中,我们介绍了这次调查的结果:使用LARS,我们能够在11分钟内有效利用1024个CPU训练完AlexNe(ImageNet,100-epoch),并在48分钟内训练完ResNet-50(ImageNet,90-epoch),批量大小为32K。

此外,当我们将批量增加到20K以上时,我们的准确性远远高于Facebook同等批量大小的准确率。如果需要,可以联系我们提供源代码。代码不久后将在Intel Caffe发布。

Facebook 256颗GPU,1小时训练完ImageNet

此前新智元报道过, Facebook的人工智能实验室(FAIR)与应用机器学习团队(AML)合作,提出了一种新的方法,大幅加速机器视觉任务的模型训练,用1小时训练完了ImageNet。

为了克服minibatch过大的问题,Facebook团队使用了一个简单的、可泛化的线性缩放规则调整学习率(learning rate)。为了成功应用这一规则,他们在训练中增加了一个预热阶段(warm-up phase)——随着时间的推移,逐渐提高学习率和批量大小,从而帮助保持较小的批次的准确性。在训练开始时使用较低的学习率,克服了早期的优化困难。重要的是,这种方法不仅符合基线验证误差,还产生与了比较小的minibatch基准线匹配的训练误差曲线。

作者在论文中写道,他们提出的这种简单通用的技术,能够将分布式同步 SDG minibatch 大小最多扩展到 8k 张图像,同时保持 minibatch 训练前 Top-1 位的错误率不变。

“对于所有大小的 minibath,我们将学习率设置为 minibatch 的线性函数,并对前几个训练时期(epoch)应用一个简单的预热(warm-up)。所有其他超参数保持固定。使用这种简单的方法,我们的模型精度对于 minibatch 尺寸是不变的。这项技术使我们可以在线性拓展 minibatch 大小的情况下,以高达 90% 的 efficiency 减少训练时间,在 1 小时内在 256 颗 GPU 上训练出了精确的 ResNet-50 模型,minibatch 大小为 8k。”

快速训练视觉模型应用意义重大,这项工作出来以后引发了一个小小的轰动——不仅仅是因为论文作者包括贾扬清和何恺明,更是因为使用了256颗GPU(32台英伟达DGX-1工作站),硬件价格高达410万美元,令人咋舌。

24分钟训练完ImageNet,硬件仅需120万美元

但很快,Facebook 1 小时训练完ImageNet的记录就被刷新。伯克利、TACC和UC戴维斯的研究人员使用新的算法,报告称在24分钟内训练完了ImageNet(AlexNet,100-epoch)。

伯克利、TACC和UC戴维斯的研究人员报告称在24分钟内训练完了ImageNet。

他们将批量大小扩展到32k,使用英特尔KNL,硬件费用120万美元

同时,研究人员表示,他们仅使用了120万美元的硬件,相比Facebook的410万美元便宜了3倍多。

虽然相比Facebook确实节省了不少,但120万美元的硬件设施还是引来不少吐槽。

正如上文介绍,Facebook的Goyal等人提出了预热策略来应对大批量难以优化的问题。然而,伯克利、TACC和UC戴维斯的研究团队发现,预热策略也有局限。当设置AlexNet的批量大于1024或ResNet-50的批量大小大于8192时,测试精度将显着降低。

于是,他们提出了一种新的算法,LARS(Layer-wise Adaptive Rate Scaling,层自适应率缩放)。这实际上是一种新的更新学习率的规则。在训练时,每个层都有自己的权重和梯度,标准SGD算法对所有层使用相同的学习率,但伯克利、TACC、UC戴维斯的研究人员在实验中观察到,不同的层可能需要不用的学习率,这也是算法“层自适应率缩放”名称的由来。

LARS算法使他们在不损失精度的条件下,将批量大小扩展到32k。实验结果证明,LARS可以帮助ResNet-50保持高的测试精度。作者在论文中写道,“我们的ResNet-50基线的准确性略低于最先进的结果(73%对76%),因为我们没有使用数据增强。对于没有数据增强的版本,我们可以得到最先进的精度(90-epoch,73%)”。

在论文最后,作者指出,我们不隶属于英特尔或NVIDIA,我们对GPU或KNL也没有任何偏好,我们只想表明可以用更少的预算(便宜3.4倍)实现相同的效果。

更进一步:11分钟训练完AlexNet,48分钟训练完ResNet-50

继这项工作之后,很自然地,伯克利、TACC和UC戴维斯的这些研究人员希望弄清,LARS算法是否可以用来进一步扩大DNN训练中有效使用的处理器的数量,从而进一步缩短训练的总时间。

于是这一次,他们使用CPU(总共1024个Intel Skylake),11分钟训练完AlexNet(ImageNet,100-epoch),48分钟训练完ResNet-50(ImageNet,90-epoch)。512个KNL的结果,24分钟训练完AlexNet,60分钟训练完ResNet-50。

在报告中,研究人员表示,他们采用模型并行,使用LARS算法(You,Gitman和Ginsburg,2017)和预热方案(Goyal等,2017)来扩大批量大小。使用这两种方法,批量大的同步SDG可以达到与基准相同的精度。

为了扩展到AlexNet模型的批量(例如扩大到32k),他们将LRN改变为批量规范化(BN,batch normalization),在每个卷积层之后添加BN。

下图是批量大小=32K的结果,将AlexNet模型中的LRN改变为RN。11分钟完成。精度与基准相当。

下图则是训练ResNet-50的结果,使用了数据增强,方法与Facebook(He等,2016年)一样。48分钟完成。精度与基准相当。

目标:朝5秒钟训练完ImageNet进发

对于深度学习应用,更大的数据集和更大的模型会让准确性有显着提高,但这样做的代价是需要花费更长的训练时间。 而诸如计算金融,自动驾驶,石油和天然气勘探和医学成像等许多应用,几乎肯定需要数十亿规模的训练元素和TB级的训练数据集。

因此,加速深度神经网络训练是非常有意义的研究课题。而在保持训练和泛化精度的同时,扩大批量大小,加速DNN训练,对分布式学习尤其有意义。再加上代码即将开源,其他研究人员和开发者也可以根据论文中列出的技术,享受类似的增益。

就像伯克利、TACC和UC戴维斯的研究人员在他们摘要中写的一样,目前世界上最快的超级计算机可以完成每秒2*10^17次单精度运算。如果能够充分利用超级计算机训练DNN,我们应该能够在5秒内训练完ResNet-50(ImageNet-1k,90-epoch)。

5秒内训练完ImageNet!

期待那一天的到来。

相关论文

  • [1] ImageNet Training by CPU: AlexNet in 11 Minutes and ResNet-50 in 48 Minutes https://arxiv.org/pdf/1709.05011v4.pdf
  • [2] Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour https://arxiv.org/pdf/1706.02677.pdf
  • [3] ImageNet Training in 24 Minutes https://www.researchgate.net/publication/319875600_ImageNet_Training_in_24_Minutes

原文发布时间为:2017-11-5

本文作者:闻菲

原文链接:【11分钟训练完ImageNet】DNN训练再破纪录,1024 CPU Caffe开源

时间: 2024-12-20 15:37:48

【11分钟训练完ImageNet】DNN训练再破纪录,1024 CPU Caffe开源的相关文章

世界知识产权组织:中国去年专利申请再破纪录

11月24日消息,据BBC报道,世界知识产权组织(Wipo)发布年度报告显示,中国去年专利申请再创纪录,专利申请总数超过100万项.世界知识产权组织在报告中称,这个数字是"非凡的".其中许多专利涉及到电信.计算.半导体以及医疗科技方面的创新. 在2015年,全球共申请专利290万项,比2014年增长7.8%.中国可以说是驱动专利申请大幅增长的最大的动力.中国国家知识产权局共收到1101864项专利申请,这比日本.韩国以及美国申请专利总和还高.但是,中国发明者对前往国外申请专利权似乎不太

6Gbps!无线网络传输速度再破纪录

据报道称,德国ELIPSE的研究人员近日开发了一种无线传输系统,可实现6Gbps的无线传输速率(即每秒钟传输600MB文件),一部蓝光电影可在十几秒内完成传输.而在此次测试中,最长的传输距离则为37公里. 研发团队在德国科隆附近的瓦特贝格小镇的一座45层建筑物中完成测试,克服了大量障碍.为了确保无线连接的稳定性,无线系统需要与地面卫星广播连接,同时整个设备的功率高达1瓦特,并且放大器始终需要保持在高功率水平,才能够实现如此远距离的高速传输. 当然,这项测试仍接近于实验室级别,意味着它并不会很快出

刘翔再破纪录 iPhone跑酷类游戏推荐

前言:这一次,刘翔没有留给罗伯斯牵手的机会.2月18日伯明翰室内田径赛60米栏决赛中,刘翔以7秒41的个人职业生涯最快成绩夺得金牌,再次战胜命中注定的对手--古巴名将罗伯斯.本次对决是继牵手门后二人的首次对决,本场比赛中刘翔也没有为罗伯斯留下任何机会,刷新由自己保持的亚洲纪录.夺得金牌一气呵成.刘翔完胜罗伯斯本届伯明翰室内田径赛同样也是刘翔在奥运年中新赛季中首场比赛,这枚金牌无疑也有着重要意义,刘翔出色的运动状态也让我们对即将来到的2012年 伦敦奥运会充满期待.在此 蚕豆网也将为您推荐8款精彩

星河生物发行市盈率再破世界纪录

[深圳商报讯]138.46倍!今日网上申购的创业板新股广东星河生物科技股份有限公司(以下简称"星河生物")发行后市盈率再创新高. 在此之前,创下A股发行后市盈率纪录的是今年11月12日上市的沃森生物(300142),其发行后市盈率达133.8倍.当时 网友戏称为"破世界纪录". 根据星河生物(300143)的招股说明书,该公司主营业务为鲜品食用菌的研发.生产和销售,主要产品包括金针菇.真姬菇和白玉菇等鲜品食用菌.公司采用工厂化模式生产鲜品食用菌,是全国食用菌行业十大

outofmemory-weka 训练500k的arff训练集仍提示outOfMemory error

问题描述 weka 训练500k的arff训练集仍提示outOfMemory error 如题,我使用weka3-6-10版本,使用AdaBoostM1算法分类,其元分类器设为随机森林,训练集500k的arff文件(57个属性,3000+实例),电脑内存为4G,maxheap设为2048M,还是提示outOfMemory error ,java heap space,这是为什么? 解决方案 用命令行运行 前边加-Xmx1000m 或者更大的数字 图形界面的话改脚本同理

语音编码-矢量量化训练码本是,训练序列如何得到

问题描述 矢量量化训练码本是,训练序列如何得到 现在正在做有关语音编码的工作,需要用到矢量量化,但是没有码本,需要自己训练,但是训练码本需要训练序列,不知道哪位兄弟可以帮助一下 解决方案 请问一下,你现在也在做音频压缩码?

胡舒立中大演讲仅11分钟由杂志人转向学术人

由杂志人向学术人转型 胡舒立中大履新演讲仅11分钟 "从事教育是一种全新的人生体验",著名新闻人胡舒立昨日正式到中山大学履新,证券界"中国最危险的女人"将执掌中大传播与设计学院,全力从事新媒体研究和教学. 深灰色短上衣,配一条蓝色围巾,不知是有意还是无意,胡舒立的中大之行一如其着装,简单低调,没有喧哗.昨日下午3时30分,胡舒立在中大传播与设计学院小礼堂出席了该校"新闻中心数字媒体制作中心"的揭牌仪式.仪式举行前后,她拒绝了媒体的采访请求. 首次

2分钟看完95年日本经典动漫 - 那些年我们一起追过的动画片

class="post_content" itemprop="articleBody"> 2分钟看完1917-2012年日本经典动漫!网友混剪总结了从1917年第一部日漫到2012年末完结的<中二病>为止的日本经典动漫画面,95年的风云历程,你经历了哪一段?动画可以重制,如果人生也可以重新来一遍,你会选择"重制"你的过去吗? 95年日本经典动漫

天际漫舞 - 2分钟看完欧洲一天的所有航班轨迹

class="post_content" itemprop="articleBody"> 英国国家空运局(NATS)负责掌管英国和全球其它地点空中交通,对于这种微妙的编舞,NATS比普通人更为了解.NATS 放出的这段视频让人们直观体会到他们每天繁忙的工作.视频以1440倍速度播放,一架架航班画出一条条纯净的激光,近看之下,你会发现更多有趣的细节-- 这段视频包含了去年6月21日起英国雷达数据和去年7月28日起欧洲大陆其它国家的航班计划数据. 首先,我们注意到