深度学习训练,选择P100就对了

1.背景
  去年4月,NVIDIA推出了Tesla P100加速卡,速度是NVIDIA之前高端系统的12倍。同年9月的GTC China 2016大会,NVIDIA又发布了Tesla P4、P40两款深度学习芯片。Tesla P100主攻学习和训练任务,而Tesla P4&P40主要负责图像、文字和语音识别。
  同为Pascal架构且运算能力接近的P100和P40常常被拿来对比,单看Spec上运算能力,似乎P40比P100的深度学习性能更好,但实际上呢?本文就通过使用NVCaffe、MXNet、TensorFlow三个主流开源深度学习框架对P100和P40做性能实测来揭晓答案吧。

2.初步分析
  
  我们先来看下P100和P40的Spec参数指标。从参数来看,的确是P40的单精运算能力强于P100,而深度学习训练普遍使用单精度浮点类型,是衡量深度学习性能的一个重要指标。P40支持IN8类型,所以非常适合精度要求不高的推理场景,24G的显存也非常适合在线处理大数据量的图像等。但是P100搭载的是HBM2高速显存,而P40只搭载了GDDR5的显存,这使得P100的显存带宽达到了P40的2倍多,而这是影响深度学习训练的另一个重要指标,在训练中会有大量的显存操作,对显存带宽要求很高。这一点很可能会制约P40的训练性能。当然这需要实测的数据来验证,下一节是我们的实测数据。

3.实测数据
3.1 NVCaffe:GoogLeNet
  使用ImageNet ILSVRC2012数据集,其中训练图片1281167张, 验证测试图片 5万张,数据单位是Images/Second(每秒处理的图像张数),OOM表示Batch Size太大导致GPU显存不够。
  测试数据如下:
  不同Batch Size单卡性能对比:

  最大性能对比:

3.2 MXNet:Inception-v3
  使用Benchmark模式测试Imagenet训练,数据单位samples/sec,测试数据如下:

3.3 TensorFlow:AlexNet
  TensorFlow使用AlexNet Benchmark模式测试单GPU Forward和Forward-backward作为比较参考,数据单位sec/ batch,越小性能越好。
  P100与P40比较的单GPU测试数据如下:

4 测试结论
  通过实测NVCaffe、MXNet、TensorFlow三个主流深度学习框架的图像分类训练性能,验证了我们前面的分析,P40虽然计算力优于P100,但是受限于显存带宽,在深度学习训练上性能是不如P100的,通过实测数据,我们可以得出结论:P100比P40训练性能至少高出20%以上。
  深度学习训练,选择P100就对了。
  阿里云上提供的GN5系列GPU实例,可搭载最多8块P100 GPU,可大大加速深度学习训练,搭载最新V100 GPU的GN6实例近期也已经上线公测,我们后续也会给出GN6实例的性能评测报告。

时间: 2024-08-20 12:25:24

深度学习训练,选择P100就对了的相关文章

用微信控制深度学习训练的Keras插件 - #Geek Time

" 天清 PaperWeekly 交流二群群友 关注音乐生成和量化交易 创意来源 深度学习训练是一个非常耗时.枯燥的过程:一次训练少则几个小时,多则数天,而且中途能人为干预的机会更是少之又少,在大部分时间里能做的只有等待. 不少人都有这样强迫症,脚本开始运行后会不停的看准确率和 loss,就像像球迷看球赛.股民盯报价一样刺激.一般来说,想要监控深度学习训练,只能使用 ssh 或者 Tensorboard.一旦需要外出,只能通过手机监控深度学习,操作十分麻烦,于是只能无奈地守在电脑前空耗生命. 我

NVIDIA令深度学习训练性能翻一番

NVIDIA发布了其 GPU 加速深度学习软件的更新版本,这些软件将令深度学习训练的性能翻一番. 新软件将让数据科学家和研究人员能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络,从而加速其深度学习项目和产品的开发工作. NVIDIA DIGITS  深度学习 GPU 训练系统第 2 版 (DIGITS 2) 和 NVIDIA CUDA 深度神经网络库第 3 版 (cuDNN 3) 可提供大幅提升的性能和全新的功能. 对数据科学家来说,DIGITS 2 现在能够在多颗高性能 GPU

IBM推出云深度学习图形芯片Tesla P100 GPU加速器

IBM加大云托管服务力度,日前宣布推出Nvidia 的Tesla P100 图形处理器(GPU),成为在云里提供Tesla P100 图形处理器的第一大云提供商. IBM在旗下的云平台上推出Tesla P100 GPU,标志着企业可以更迅速.更有效地用Nvidia的加速技术运行大型计算工作负载,如人工智能.深度学习和高性能数据分析等. Nvidia GPU与服务器的中央处理器(CPU)一起可以提高应用程序的性能,因此大型计算数据工作负载可以更快.更高效地运行.各种不同的领域用了GPU后取得突破性

继 OpenAI 之后,DeepMind 开源深度学习训练平台 DeepMind Lab

编者按:今年四月,由马斯克和知名风投专家 Peter Thiel.Y Combinator 创始人 Sam Altman 共同创立的 AI 研究组织对外开放了其 AI 训练平台 OpenAI Gym.近日,该组织宣布还将开源测试和训练 AI 通用能力的平台 Universe,届时 Universe 将提供 1000 多种不同的游戏和训练测试环境.今天,据彭博社消息,谷歌 DeepMind 实验室也将向大众及其他开发者开放其用于众多实验的迷宫类游戏平台. DeepMind 宣布,将把这一 AI 训

GPU加速深度学习

1. 背景 一年半以前,AlphaGo完胜李世乭的围棋赛让深度学习(Deep Learning)这个名词家喻户晓,再度掀起人工智能的新一波热潮.其实深度学习背后的神经网络基础理论早在上世纪50年代就已提出,经过几起几落的发展,到了21世纪初,多层神经网络算法也日趋成熟.深度学习理论早在十多年以前就有重要突破,为何直到近年才出现爆发.这不得不提到2012年的一场竞赛. 2012年,Geoffrey E. Hinton(与Yann LeCun 和Yoshua Bengio并称为深度学习三驾马车)的弟

阿里云异构计算平台——加速AI深度学习创新

云栖TechDay第36期,阿里云高级产品专家霁荣带来"阿里云异构计算平台--加速AI深度学习创新"的演讲.本文主要从深度学习催生强大计算力需求开始谈起,包括GPU的适用场景,进而引出了弹性GPU服务--EGS(Elastic GPU Service),重点讲解了EGS的优势.EGS监控以及EGS产品家族,最后对EGS支撑AI智能创新进行了总结.以下是精彩内容整理:   基于大数据的深度学习催生强大计算力需求 怎样加速AI深度学习支撑,帮助大家搭建模型,支撑大家业务运营等等. 如图,深

分析全球334家真正的深度学习创业公司,盘点25家AI芯片创业公司 | IEEE Fellow Chris Rowen演讲

在回顾Chris的演讲前,我们先来了解一下Chris本人.Chris Rowen是一位著名的硅谷企业家和技术专家.他目前是Cognite Venture的CEO,斯坦福SystemX联盟顾问,Cadence设计系统的顾问.他正在开发认知计算领域新的创业企业.他曾担任Cadence IP集团首席技术官,在那里他带领团队为移动.汽车.基础设施.深度学习和物联网系统的高级应用开发新的处理器和内存.Chris在1997年创建了Tensilica公司并担任CEO,开发可扩展处理器,成为领先的嵌入式架构之一

大规模深度学习优化技术在PAI平台中的应用及实践

1. 前言 自2012年Deep Learning的代表模型AlexNet在ImageNet大赛中力压亚军,以超过10个百分点的绝对优势夺得头筹之后,依托于建模技术的进步.硬件计算能力的提升.优化技术的进步以及海量数据的累积,Deep Learning在语音.图像以及文本等多个领域不断推进,相较于传统作法取得了显著的效果提升.   工业界和学术界也先后推出了用于Deep Learning建模用途的开源工具和框架,包括Caffe.Theano.Torch.MXNet.TensorFlow.Chai

如何在实战路上与时俱进:深度学习最佳实践

自2006年Hinton提出神经网络新的训练方法起,深度学习发展迅速,促使人工智能在图像.语音.自然语言处理等多个领域有了实质性的突破,达到产业应用标准.然而,深度学习作为人工智能领域的一项前瞻技术,实践性强,入门门槛高,关于深度学习的研究与应用,现在仍有很多问题没有找到满意的答案,这些都给深度学习的广泛应用带来挑战.本文旨在提供一份清晰.简洁的深度学习实践说明,以便从事深度学习研究与工程技术人员能够快速掌握深度学习的实际经验. 第一节:深度学习概述 深度学习是模拟人脑进行分析学习的多层神经网络