英伟达:超高的性能表现……足以支持AI应用

英伟达公司已经为AI应用设计出两款全新Tesla处理器,分别为P4与P40。

 

这款16纳米FinFET GPU采用英伟达Pascal架构,且延续今年6月发布的P100命名方式。其中P4为单高、单长PCIe卡,用于向外扩展服务器;而更为强大的P40则着眼于向上扩展设备。

这一新组合主要用于推理工作,即在硬件当中内置一套经过训练的AI模型、部分对应软件以及类似摄像头视频或者麦克风音频的输入数据,并由其据此提供决策、语音到文本转换以及对象分类等功能。

如今我们的深度学习模型已经发展到新的阶段——即利用大规模训练数据立足强大系统方可起效。但在另一方面,推理功能则需要奋起直追:我们必须能够利用数字运算处理器向复杂的神经网络推送数据,并借此进行实时决策。

这对于英特尔、英伟达及其它芯片厂商而言不啻为一个好消息,这意味着他们能够出售更多高端芯片以实现训练及推理。但坏消息在于,这意味着将有更多数据被发送至云端,并在那里进行处理,而后将结果发送回我们的手机、平板设备乃至其它小型计算平台。如此一来,我们需要高度依靠稳定的互联网连接方案。

英伟达公司高级产品经理Roy Kim告诉我们,未来的发展趋势将在于“混合”方案,即在设备之上建立低精度模型,从而保证决策可立即完成,而后再决定是否利用更为强大的后台处理资源返回更加精确的处理结果。目前最先进的图像识别系统拥有超过150层神经元,Kim指出,因此我们目前更需要在推理层面投入研究精力。

有什么新内容?

为了最大限度提升推理通量,我们的物联网云端个人助手不会在处理问题方面耗费太多时间。英伟达公司已经向其Pascal架构中添加了两条新指令:IDP2A与IDP4A。二者能够执行双及四元素8位矢量点积计算,并借此累加为32位。

基本上,数据科学家们认为8位精度已经足以支撑神经网络,;这意味着如果需要进一步提升精度以获得16位或者32位值,则可再经由GPU完成相关运算。事实上,当处理作为深层感知输入数据的信息时,我们并不需要太高的计算精度。

谷歌公司的TensorFlow加速ASIC同样使用8位精度进行推理,而英特尔与AMD芯片亦可在8位矢量计算领域带来出色的性能表现。

这是什么原理?

矢量点产品已经成为人工神经网络的核心所在。目前全部热门AI的核心皆为数学方程串,即从输入数据中或者普通英文中提取特性,或者从传感器及摄像头端获取有价值信息等,而后再利用软件对其进行处理。我们可以通过组合或者训练帮助网络接收数据流,而后通过不同加权机制对其进行分流,直到找出正确答案。这种加权机制贯穿整个训练过程,旨在检测输入数据的重要特性。

以下单个神经元示意图看起来非常复杂,但请相信我,并没有大家想象的那么可怕。首先我们在左侧获得从x1到xn的多个值,其经由n条路径向右推进。每个xi输入值都乘以其路径权重wi,而后再将这些乘积结果相加。这就是所谓点生成机制。在此之后,该加和会被引入一个阈值或者激活函数,输出结果则供网络中的下一感知体系进行使用。

将其加以组合,我们就能够得到以下这套基本网络,其中包含2个输入结果,3个神经元与1个输出结果。

让我们着眼于顶部神经元。其使用M输入值,将其乘以加权θ1,而后将结果添加至J再乘以θ2。由此得到的加和经由激活函数运行,并将结果交付至最右端的神经元。

因此如果忽略激活函数,那么顶端神经元的点生成输出结果为(Mxθ1) + (Jxθ2)。现在想象一下,如果这些变量各为8位整数,范围在-127到127之间,或者0到255之间。假设这些点生成运算可每秒执行47万亿次,且全部加和结果都能够提交至网络的下一阶段,那么这正是英伟达P40的定位所在。也正因为如此,英伟达公司才决定使用8位生成加速计算方案。

英伟达方面宣称,其P4能够在理想状态下每秒执行21.8万亿次8位整数运算,而P4在利用AlexaNet训练模型时,第瓦每秒图像分类数量可达到英特尔至强E5 CPU的“40倍”。

当然,这一切都要求我们的AI模型采用8位加权机制。这显然是一种非常高效的语音识别模型,同时亦可用于识别图像及完成其它类似的推理分类工作。

以下为Tesla GPU家族各产品的详尽规格数据,其中包括全新P4与P40:


Tesla 加速器


Tesla M4


Tesla P4


Tesla M40


Tesla P40


GPU


Maxwell GM206


Pascal GP104


Maxwell GM200


Pascal GP102


流多处理器


8


20


24


30


FP32 CUDA 核心 / SM


128


128


128


128


FP32 CUDA 核心/ GPU


1024


2560


3072


3840


基本时钟


872 MHz


810 MHz


948 MHz


1303 MHz


GPU 启动时钟


1072 MHz


1063 MHz


1114 MHz


1531 MHz


INT8 TOP/s


NA


21.8


NA


47.0


FP32 GFLOP/s


2195


5442


6844


11758


FP64 GFLOP/s


69


170


213


367


纹理单元


64


160


192


240


内存接口


128-bit GDDR5


256-bit GDDR5


384-bit GDDR5


384-bit GDDR5


内存带宽


88 GB/s


192 GB/s


288 GB/s


346 GB/s


内存大小


4 GB


8 GB


12/24 GB


24 GB


二级缓存大小


2048 KB


2048 KB


3072 KB


3072 KB


注册文件大小/ SM


256 KB


256 KB


256 KB


256 KB


注册文件大小/ GPU


2048 KB


5120 KB


6144 KB


7680 KB


共享内存大小 / SM


96KB


128KB


96KB


128KB


计算容量


5.2


6.1


5.2


6.1


TDP


50/75 W


75 W (50W option)


250 W


250 W


晶体管数量


2.9 billion


7.2 billion


8 billion


12 billion


GPU晶片大小


227 mm²


314 mm²


601 mm²


471 mm²


制造工艺


28-nm


16-nm


28-nm


16-nm

P4与P40将于今年10月与11月分别开始销售。如果大家希望早点熟悉这类新方案,则可选择英伟达公司的Pascal Titan X显卡,其发布于今年7月且同样拥有44 TOPS的8位整数运算能力。P40基本上就是一款略微强化过的Titan X。

与此同时,英伟达方面还发布了TensorRT(一套运行于其硬件之上的推理引擎)外加Deepstream软件开发工具包,用于识别高分辨率(HEVC、VP9)视频中的人物与对象。

原文发布时间为:2016年9月14日

本文作者:孙博 

时间: 2024-08-30 01:13:18

英伟达:超高的性能表现……足以支持AI应用的相关文章

NVIDIA(英伟达)与蚁视战略合作 全面支持蚁视软硬件产品

4月6日,由NVIDIA(英伟达)举办的开发者大会(GTC)在美国硅谷拉开帷幕,作为图形计算领域的专业盛会,虚拟现实再次成为本次大会的焦点.Oculus.HTC.蚁视到场参加. 会上,英伟达业务副总裁Jeff Herbst宣布已与蚁视达成战略合作,NVIDIA将全方位支持蚁视虚拟现实设备,双方将在图形渲染优化.VR游戏的优化等虚拟现实技术领域展开深度合作.并邀请蚁视创始人CEO覃政上台演讲.蚁视也是英伟达本次唯一邀请登台演讲的中国VR公司.   现场蚁视CEO覃政介绍了与英伟达合作之后即将推出的

人类离“无癌时代”还有多远?英伟达推出超算平台CANDLE,用 AI 消灭癌症

微软曾放出豪言,要在 10 年内消灭癌症.该公司希望利用开拓性的计算机科学技术破解患病细胞代码,对患病细胞进行重新编程,让其重回健康状态.就像通过编程可以解决电脑病毒问题,微软认为通过对人体系统编程能够消灭癌症.为此,该公司在英国剑桥成立了生物运算部门,该部门汇集了 150 名世界顶尖的生物学家.程序员以及工程师,将利用人工智能作为武器对癌症发起进攻.微软表明,将在未来的 10 年内攻克癌症问题,人类将进入真正的"无癌时代". 先不说微软这一雄心实现的概率有多少,它并不是唯一一个想要用

英伟达面向开发者群体建立深度学习课程

 深度学习正在"转化计算"方式,英伟达公司在其本届GPU Tech大会上努力传达出这样一条信息.而围绕着这一主题,英伟达公司将自身打造为引领者.催化剂以及深度学习的推动者--当然,从长远角度来看,其自然也将成为主要获利方. 而且有迹象表明,英伟达公司正将其未来押注在人工智能(AI)这一领域当中.其最近发布的"深度学习研究所"项目计划在今年年内吸引到10万名开发人员.另外,英伟达公司已经在2016年年内培训出1万名开发者. 过去几年以来,AI已经逐步涉入"科

异构智能吴韧:对标英伟达和 Google ,要做专用的 AI 芯片

离开百度的两年里,吴韧创办了一家做 AI 芯片的公司--异构智能(NovuMind).但在很长一段时间里,关于吴韧的去向和这家公司在媒体报道中几乎处于噤声状态. 按照吴韧一贯给人看似"低调"的性格,没有做出一定的成绩,或者足够满意的产品出来之前,他也应该不会急于向外界发声.不过,关于他们的报道在近期逐渐多了起来,异构智能这家公司也逐渐浮出水面. 10 月 24 日,异构智能创始人吴韧向包括雷锋网在内的十多家媒体整体介绍了异构智能这家公司和他们做的 AI 芯片.关于吴韧的介绍,以及异构智

同是利润增长:英伟达与英特尔股价表现迥异背后

日前,以CPU为主的英特尔和GPU为主的英伟达先后发布了自己今年第一季度财报,其中双方利润分别同比增长了45%和48%,按理说双方利润的增长都相当可观,尤其是对于英特尔,在当季PC市场依然下滑之时,仍以PC芯片为主的英特尔能够实现如此的利润增长实属可贵,但事实远没有看起来那般简单,反映在资本市场中,英特尔在取得了看似不错的财报后,其股价不涨反跌,跌幅高达6%左右,相比之下,英伟达的股价则大幅上扬了14%左右.那么问题来了,为何同是利润增长,且增长幅度几乎相同,但双方在股价上的表现却大相径庭呢?这

【干掉英伟达?】DeepMind CEO哈萨比斯投资的AI芯片,性能超越GPU 100倍

被DeepMind联合创始人哈萨比斯投资的AI芯片公司 Graphcore,宣称自己的IPU芯片相比市场同类产品性能提升10~100倍,并且在训练和推理两方面都同样出色.现在他们发布初步的测试基准证实他们的宣言,对比GPU,在某些任务上IPU的性能提升甚至超过200倍. Graphcore 的 IPU(Intelligence Processing Unit,智能处理单元)是一种新的AI加速器,为当前和未来的机器学习工作负载带来了前所未有的性能水平.它的独特的大规模并行多任务计算.单个IPU或跨

【VMware】VMware和英伟达联手 提高虚拟桌面性能

10月20日消息,据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,VMware和英伟达将合作在VMware的View虚拟桌面平台上实现图像公司Quadro的虚拟图像平台,以便让更多的用户放弃传统的工作站. 这两家公司是在本周三哥本哈根举行的VMworld欧洲区大会上宣布建立合作关系的.VMware服务器和桌面战略的一个重要部分就是改进其平台和工具,以便让更多的用户将更多的应用虚拟化.这次与英伟达的合作就着重于桌面战略部

英伟达回应谷歌威胁论:Volta GPU性能远强于二代TPU

据CNBC北京时间5月25日报道,谷歌上周推出了第二代TPU,专注于人工智能领域.外界普遍认为,谷歌此举最终会削弱图形芯片厂商英伟达的增长势头,毕竟,英伟达的增长主要得益于那些使用其芯片进行人工智能处理的企业客户.不过,英伟达CEO黄仁勋周三驳斥了这种说法,称即将推出的Volta GPU的运算能力远远超过谷歌第二代TPU. 过去几年,英伟达与此类计算形式建立了紧密联系,由于投资者看好英伟达的前景,加上销售量不断增长,该公司股价持续走高.英伟达股价在去年上涨了逾200%,而从2017年初到现在也累

英伟达初尝移动市场甜头 黄仁勋小步快跑想称霸

押宝移动处理器的英伟达终于从财报中闻到了蛋糕的香味.     11月10日,英伟达发布了截至今年10月30日的2012财年第三季度收入情况.该季度销售额达10.7亿美元,同比增长26.3%:净利润为1.783亿美元,同比增长110%:毛利率为52.2%,高于去年同期的46.5%,连续五个季度创下历史新高.      令英伟达感觉神清气爽的原因是,它们及时加大了对于智能手机以及平板电脑芯片生产的力度.据报道,其消费者产品包括移动处理器图睿(Tegra)芯片等在第三财季的收益上升了14%,达到1.9