深度学习的三种硬件方案 ASICs、FPGAs 和 GPU,开发者需要知道什么?

今年三月 AlphaGo 和李世石的“世纪之战”炒红了深度学习—— AlphaGo 采用了人工神经网络技术,充分挖掘了深度学习的潜力。简单来说,深度学习是一个包含了许多层级数据处理的神经网络,以自动化方式组合起来解决问题。

人机大战之前,相当多的人并不看好 AlphaGo,包括许多围棋、AI 业内人士 。但公众并不清楚的是:当时谷歌手中握着一张王牌——AlphaGo 的计算设备搭载了特制硬件,一个被谷歌称为“Tensor Processing Unit”(TPU)的计算卡

谷歌 TPU

深度学习的三种硬件方案:ASICs,FPGAs,GPU

人机大战落幕后的两个月,谷歌硬件工程师 Norm Jouppi 才公开了它的存在。在博客中,他解释道,谷歌给数据中心装备这些加速器卡已经有超过一年的时间。虽然谷歌对技术细节严格保密,但已透露它们专为谷歌开源项目 TensorFlow 而优化;并且,它采取了一个越来越流行的深度学习运算加速方式:ASICs。它全称为应用型专用集成电路(application-specific integrated circuit)。

而微软采用了另一种逐渐流行起来的方式:FPGAs(现场可编程门阵列,field-programmable gate arrays)它的优势是,如果计算机需要改变,它可以被重新装配。但是,最通用、最主流的方案仍旧是使用 GPU,以并行处理大量数学运算。不出预料,GPU 方案的主要推动者是该市场的霸主英伟达。

英伟达旗舰显卡 Pascal Titan X

事实上, 2009 年之后人工神经网络的复兴与 GPU 有紧密联系——那一年,几名斯坦福的学者向世界展示,使用 GPU 可以在合理的时间内训练深度神经网络。这直接引发了 GPU 通用计算——GPGPU 的浪潮。

英伟达首席科学家、斯坦福并发 VLSI 架构小组的负责人  William J. Dally 表示:“行内每个人现在都在做深度学习,这方面,GPU 几乎已经达到了最好。”

William J. Dally (又名 Bill Dally)

深度学习的三种运算任务

William Dally 进一步解释,深度学习硬件的选择有三个不同领域要考虑。

1. “数据中心的训练”

第一个被他称之为“在数据中心训练”。这里,他指的是任何深度学习系统需要做的第一步:调整神经元之间的数百万连接,让神经网络来执行分配的任务。

对于这方面的硬件,行业领头羊是一家最近被英特尔收购的公司 Nervana Systems。该公司的计算机学者 Scott Leishman 透露,他们开发出的 ASIC 深度学习加速器 Nervana Engine, 将于 2017 年中投产。他注意到,另外一项需要大量计算的任务——比特币挖矿,正从一开始在 CPU 上运行,转移到 GPU,再到 FPGAs,最终到 ASICs。这是由于提升的能耗效率。他说:“在深度学习领域我观察到了同样的趋势”

2. “数据中心的推理(inference)”

第二个深度学习硬件的任务是,“数据中心的推理(inference)”。推理在这里指代的是,基于云端、被训练来处理特定任务的神经网络的连续运行。每天,谷歌的神经网络都要运行天文数字级别的推理计算,来进行图片分类,语言翻译,语音识别。虽然现在的信息不足以证实,但据雷锋网(公众号:雷锋网)所知,业内人士普遍推测谷歌的 TPU 是为这些任务而定制。

训练和推理通常需要不同的技能组合。对训练来说,计算机往往需要以较高的精确度运算,一般使用 32 位浮点运算。对于推理,精确度可以适当牺牲,换取更快的速度和更低的能耗。对此,Leishman 表示:“这是一个热门研究领域,能耗到底可以降低到什么程度?”

 William Dally 拒绝透露英伟达的深度学习产品计划,而是强调如今做出的成绩。他说,英伟达的 GPU 在不断进化。上代 Mazwell 架构可以进行双精度(64 位)或者单精度(32 位)运算,而这一代的帕斯卡( Pascal )架构能以单精度运算两倍的吞吐量和效率进行 16 位运算。我们能想象,英伟达很可能最终会发布能进行 8 位运算的 GPU 。对于云端的推理计算来说,这十分理想,因为能耗对于降低成本十分关键。

3. “嵌入式设备的推理”

第三个深度学习运算需要考虑的是 “嵌入式设备的推理”,比如智能手机、摄像头和平板电脑。这类应用的核心是低能耗的 ASICs。近年来,深度学习软件越来越多地集成入手机应用。它已经被用来查杀恶意软件和翻译图片中的文字。

雷锋网消息,大疆已经在精灵 4 中应用了类似于深度学习 ASIC 的东西:使用加州公司 Movidius 的视觉处理芯片来识别障碍。顺便说一句,Movidius 是最近另一家被英特尔收购的神经网络公司。另外,高通也在旗舰芯片 820 中加入了优化深度学习计算的特殊电路

今天,各家公司有极强的商业动机,去开发能加速深度神经网络的硬件。但这里有一个很大的风险:如果技术迭代太快,为昨天的神经网络而设计的芯片,可能在最终生产、铺货时就已经过时了。对此,William Dally 说道:“算法正在飞速变化,所有开发这些硬件的人,都试图让产品方案覆盖尽可能多的对未来的赌注。”

目前,基于 ASICs 和 FPGAs 产品大多应用在企业端,大多数个人开发者的的首选仍然是 GPU。至于在未来 GPU 的霸主地位是否会动摇,雷锋网会继续关注。

via ieee

【兼职召集令!】

如果你对未来充满憧憬,喜欢探索改变世界的科技进展,look no further!

我们需要这样的你:

精通英语,对技术与产品感兴趣,关注人工智能学术动态的萝莉&萌妹子&技术宅;

文字不求妙笔生花,但希望通俗易懂;

在这里,你会收获:

一群来自天南地北、志同道合的小伙伴;

前沿学术科技动态,每天为自己充充电;

更高的生活品质,翻翻文章就能挣到零花钱;

有意向的小伙伴们把个人介绍/简历发至 guoyixin@leiphone.com,如有作品,欢迎一并附上。

相关文章:

AMD 登陆机器学习领域,与英伟达、英特尔上演 AI 运算“三国杀”

英特尔宋继强:2020年,要让深度学习模型训练时间缩短100倍|2016 CAIIC

英特尔反击英伟达,推出深度学习加速器和新一代至强芯片

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-21 20:10:24

深度学习的三种硬件方案 ASICs、FPGAs 和 GPU,开发者需要知道什么?的相关文章

虚拟主机推荐自持各自都有优势,三种选择方案

当今,建站的门槛越来越低,越来越多的人购买了域名和空间,建起网站当起了站长.初学建站的站长们在购置主机的时候都会有几个问题令人非常纠结,比如说主机的选择. 对于国人来讲,主流的选择大体有三种,而且这三种选择方案,将站长们分成了三个阵营,自持各自都有优势,活脱脱三国鼎立之势. 这三个方案跟主机的位置有关:http://www.aliyun.com/zixun/aggregation/11386.html">美国主机,香港主机,内地主机.(56主机网 www.56dr.com) 内地主机 买点

傅盛:深度学习是一种新的思维方式(上)

落后最怕的是思维方式的落后. 过去猎豹在安全和工具层面,抓住了上一个时代的大风口.如今这条赛道不再像以前那样野蛮生长. 互联网已经进入下半场,广度红利时代结束.原先粗放式的流量经营模式遭遇瓶颈,用户增长受限,且再难出现爆发性机会.下一个机会点在哪? 我讲过,人工智能会是下一个风口. 但,首先我们必须认识到--人工智能一定不是简单的一个神经网络,也不是用一个新的函数替代一个旧的函数.人工智能是对整个产业的重构,是对我们整个思维方法的重新塑造. 它将现实所有物理事件产生的东西归结于一个点--数据.然

日本小哥如何使用深度学习和TensorFlow种黄瓜?

◆ ◆ ◆ 导读 现在说机器学习和深度学习的应用只受限于人们的想象力并不夸张.不仅全世界的数据科学家们为之着迷,甚至在日本的农场,一位小哥为了减轻妈妈的工作负担,也开始尝试采用深度学习和Tensor Flow种黄瓜. 大约一年前,曾为日本汽车业内一名嵌入式系统设计师的MakotoKoike开始在父母的黄瓜种植园帮工.根据大小形状颜色和其他属性来分选黄瓜这件事所需的工作量令他吃惊. Makoto Koike那一生致力于提供鲜脆黄瓜的父亲就很为他那些仍带有细刺的扎手黄瓜感到自豪.颜色鲜艳又直又粗并且

百度将 HPC 技术引入深度学习;卡巴斯基操作系统;AMD Ryzen 预售等 | AI 开发者头条

百度将 Ring Allreduce 算法引入深度学习 Ring Allreduce 本是 HPC (高性能计算)领域的一项技术.日前,百度硅谷 AI 实验室已成功将其移植到深度学习平台,借此来加速 GPU 之间的数据传输速率.目前,在 GPU 并行计算中,它们之间的通信瓶颈是制约深度学习模型训练速度的主要障碍之一.百度宣布,Ring Allreduce 算法的引入将移除该瓶颈,大幅提升多 GPU 和分布式计算环境下的深度学习模型运算效率.雷锋网获得消息,该技术已被百度成功应用于语音识别. 该算

浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案

11月17日,在正在举行的2015全球超级计算大会(SC15)上,浪潮联合全球可编程逻辑芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同发布了一套面向深度学习.基于AlteraArria 10 FPGA平台.采用OpenCL开发语言进行并行化设计和优化的深度学习DNN的语音识别方案.同时,此次发布也标志着浪潮成为全球领先的具备GPU.MIC和FPGA三项HPC异构计算应用能力的HPC系统厂商. 深度学习,需要HPC"提速" 让计算机拥有接近人类的智能水平是IT行业最

零基础入门深度学习(三):卷积神经网络

投稿:Intelligent Software Development 团队介绍:团队成员来自一线互联网公司,工作在架构设计与优化.工程方法研究与实践的最前线,曾参与搜索.互联网广告.共有云/私有云等大型产品的设计.开发和技术优化工作.目前主要专注在机器学习.微服务架构设计.虚拟化/容器化.持续交付/DevOps等领域,希望通过先进技术和工程方法最大化提升软件和服务的竞争力.   在前面的文章中,我们介绍了全连接神经网络,以及它的训练和使用.我们用它来识别了手写数字,然而,这种结构的网络对于图像

详解丨FPGA:深度学习的未来?

转自新智元 来源:arxiv 作者:Griffin Lacey  Graham Taylor Shawaki Areibi 摘要 最近几年数据量和可访问性的迅速增长,使得人工智能的算法设计理念发生了转变.人工建立算法的做法被计算机从大量数据中自动习得可组合系统的能力所取代,使得计算机视觉.语音识别.自然语言处理等关键领域都出现了重大突破.深度学习是这些领域中所最常使用的技术,也被业界大为关注.然而,深度学习模型需要极为大量的数据和计算能力,只有更好的硬件加速条件,才能满足现有数据和模型规模继续扩

在深度学习这个领域 浪潮也是够用心的!

美国硅谷时间4月5日,一年一度的NVIDIA GPU技术大会2016(GTC 2016)正式召开.在本次大会上,浪潮正式发布了新一代深度学习计算框架Caffe-MPI,并开源公布所有代码,以方便深度学习用户构建适合自身需求的解决方案. 据浪潮HPC应用研发经理张清介绍,相较去年GTC发布的上一个版本,此次发布的新一代Caffe-MPI版本集群并行扩展性能更强,并增加了对cuDNN库的支持.实测数据表明,新版本在4节点下16卡的性能较单卡提升13倍(上一版本的实测数据为8节点提升10.7倍). 可

谢源:计算存储一体化,在存储里做深度学习,架构创新实现下一代AI芯片

谢源教授于1997年获得清华大学电子工程系学士学位,于1999年和2002年获得普林斯顿大学电机工程系硕士和博士学位.于2003年加入宾夕法尼亚州立大学计算机系,2008年获得终身教职,2012年提升正教授.2014年他转入加州大学圣芭芭拉分校电机与计算机工程系(ECE)担任正教授.他同时也是北京大学的兼职教授和台湾新竹清华大学的客座教授. 谢源教授也拥有丰富的工业界经验,他于2002-2003年任职于IBM担任微电子部门全球设计中心的咨询工程师,2012年到2013年期间加入AMD,负责组建和