英伟达Tesla P100超级计算机组件全面登陆PCIe总线

PCIe接入形式的英伟达P100

英伟达公司已经推出了其Tesla P100加速芯片,采用PCIe卡形式且可接入标准服务器节点以支持人工智能与超级计算机级别的工作负载处理工作。

P100公布于今年4月在加利福尼亚州召开的英伟达GPU技术大会上:这款16纳米FinFET图形处理器在一块600平方毫米晶片上容纳有150亿个晶体管。其设计目标在于每秒实现万亿级别计算,适用软件包括神经网络训练以及天气与粒子模拟。这款GPU采用英伟达的Pascal架构,能够实现CPU与GPU之间的页面迁移。

每块P100包含4个每秒40 GB英伟达NVLink端口,分部接入GPU集群。NVLink为英伟达公司设计的高速互连机制。IBM公司的Power8+与Power9处理器皆支持NVLink,允许主机的Power CPU核心直接与各GPU相对接。

这些来自蓝色巨人的芯片主要服务于美国政府所拥有的各超级计算机及其它高负载设备。不过在民用领域,我们普遍使用x86处理器支撑后端工作负载。

时至今日,数据中心内的绝大部分计算处理器由英特尔公司提供;然而英特尔方面并不支持英伟达的NVLink,而且似乎也没有在这方面做出努力的计划。因此,英伟达方面拿出了自己的解决办法,即PCIe版本的Tesla P100卡,帮助服务器构建人员将加速处理器同其x86设备相结合。这意味着GPU能够通过NVLink实现彼此间的高速通信,同时经由PCIe总线接入主机CPU。

 

目前PCIe P100分为两种型号:其一HBM2堆栈内存为16 GB且内存传输带宽为每秒720 GB;其二成本更为低廉,HBM2内存为12 GB且内存传输带宽为每秒540 GB。二者皆采用PCIe gen-3 x 16通道以实现每秒32 GB传输能力。

二者在处理64位双精度运算与32位单精度运算时的持续性能水平分别为4.7万亿次与9.3万亿次;16位半精度运算则为18.7万亿次。这一水平略低于原始P100在双、单与半精度运算中的5.3万亿次、10.6万亿次与21万亿次。原因在于,PCIe卡的性能由于发热量的考虑而必须有所牺牲——毕竟我们不希望塞满了GPU加速节点的机架由于全力运转而被融化。

另外,NVLink P100的额定功率为300瓦,而其16 GB PCIe表亲的功率水平为250瓦,12 GB版本的功耗则更低。

顺带一提,如果大家希望在非NVLink服务器上使用全速、全功率Tesla P100,其实也是能够实现的:系统制造商能够在主机上添加PCIe gen-3接口,从而实现额外的性能提升。不过如果大家只希望使用PCIe,那么目前的低功耗、低性能PCIe选项已经非常理想。

“PCIe P100将成为主力系统——即大规模计算设备,”英伟达公司高级产品经理Roy Kim在接受采访时表示。他同时建议称,每个服务器节点可以接入4到8块该PCIe卡。

这些PCIe设备预计将在2016年第四季度正式推出,且面向克雷、戴尔、惠普、IBM以及其它英伟达合作伙伴发布。其最终定价将取决于经销商,但根据我们得到的消息,其价格会与目前的英伟达K80基本持平——后者的售价约为4000美元。

而在价值层面,英伟达方面告诉我们,P100 PCIe卡将在今年晚些时候作为欧洲各顶级超级计算机的构建组件,其中包括位于瑞士卢加诺国家超级计算中心的Piz Daint。

原文发布时间为:2016年6月21日

本文作者:毕波 

时间: 2024-09-12 10:00:08

英伟达Tesla P100超级计算机组件全面登陆PCIe总线的相关文章

传英伟达联手索尼PS2游戏将登陆安卓系平台

(编译/凯蒂鱼)据海外媒体报道,谷歌的安卓(Android)平台将迎来索尼的PS2游戏登陆. 报道称,英伟达推出的Tegra Zone应用程序平台将支持索尼的PlayStation Suite服务,其中也包括在未来兼容运行PS2游戏.这意味着,以后凡是使用英伟达Tegra和谷歌安卓的智能手机和平板电脑,都能运行包括PS1和PS2在内的众多来自索尼游戏阵营的经典作品. 索尼是在今年1月首次公布的PlayStation Suite,这是一项针对索尼旗下游戏的跨平台服务,主要是让经过认证的PS经典老游

IBM联手英伟达推出针对机器学习的新服务器

IBM新服务器 北京时间9月9日消息,据外媒报道,IBM日前宣布推出新服务器IBM Power Systems S822LC for High Performance Computing.虽然名称有些长,但它是一款很有意思的产品.IBM联手英伟达打造了这个专为人工智能.机器学习和高级分析使用案例而设的新系统. 该新服务器使用两个IBM POWER8 CPU和4个英伟达Tesla P100 GPU加速器.不过,它运行软件之所以非常快速,不只是因为CPU和GPU强大的处理能力.IBM还使用英伟达的N

一文详解英伟达刚发布的 Tesla V100 究竟牛在哪?

众所周知,目前无论是语音识别,还是虚拟个人助理的训练:路线探测,还是自动驾驶系统的研发,在这些人工智能领域,数据科学家们正在面对越来越复杂的 AI 挑战.而为了更好地实现这些颇具未来感的强大功能,就必须在实践中引入一些指数级的更加复杂的深度学习模型. 另一方面,HPC(高性能计算)在现代科学研究中一直起着至关重要的作用.无论是预测天气,新药物的研究,或是探索未来能源,科研人员每天都需要利用大型计算系统对现实世界做各种各样的仿真和预测.而通过引入 AI 技术,HPC 就可以显著提升科研人员进行大数

【黄教主再放核弹】英伟达超级计算机SaturnV升级,有望杀入Top500榜单前五

2017年超算大会,最新Top500榜单公布,但这里要说的不是中国的强力表现--虽然还是让我们简单回顾一下,中国上榜的超级计算机系统数量超越了美国(202 vs 143),神威·太湖之光和天河二号第四次蝉联冠亚军--而是英伟达. 最新的Top500超级计算机榜单中,英伟达的DGX SaturnV 系统排名第36.此外,榜单上有34个系统使用了他家的GPU.不仅如此,在全球Top20最高效的超级计算机集群中,有14个使用了英伟达的硬件.如果这还不够,该公司现在宣布,DGX SaturnV集群升级,

老黄呕心之作,英伟达能凭借Tesla V100技压群雄吗?

上周,英伟达在加州举行了2017年的GPU技术大会(GTC2017).在大会上,英伟达CEO黄仁勋发布了全新力作--NVIDIA Tesla V100.根据英伟达官方介绍,Tesla V100采用了全新架构Volta,不仅会有更强的性能,还增加了TensorCore用以专门针对深度学习.在发布会后,英伟达的股价也随之走高.那么英伟达能凭借Tesla V100强悍的性能在深度学习领域力压群雄吗? Tesla V100的优点和存在的不足 根据英伟达官方介绍,Tesla V100采用台积电12nm F

Google Cloud Next 云技术大会开幕;英伟达发布全新 Jetson TX2 嵌入式开发组件 | AI 开发者头条

▲内容预览: ● Google Cloud Next 云技术大会开幕 ● 英伟达发布全新 Jetson TX2 嵌入式开发组件,强化 AI 智能运算 ● IBM研发大数据模型,为控制埃博拉病毒传播大显身手 ● 谷歌开放大规模音频数据集 AudioSet,助力 AI 音频算法研究    每日推荐 ● 盘点近年来引用最多的深度学习论文 █ Google Cloud Next 云技术大会开幕 Google Cloud Next 云技术大会将于当地时间3月8日上午8:30在美国加州旧金山开幕(北京时间约

英伟达推出信用卡大小的“超级计算机” 旨在实现便携式AI

很多老读者可能仍然认为英伟达只是一家图形处理器厂商,但根据该公司CEO黄仁勋的说法,其目前正在积极加快在计算与机器学习领域的发展脚步. 英伟达CEO黄仁勋 他解释称,"我已经在计算机行业拥有30多年的从业经历,而这已经成为有史以来最振奋人心的事件--计算机有能力进行学习,计算机有能力自行编写软件并实现人工智能,这一切都将给网络服务带来重大变革," 有鉴于此,他于本周二演示了该公司刚刚面向机器学习市场发布的全新硬件产品.在数据中心方面,其推出了新的GPU加速方案以简化服务器在处理视频及图

英伟达的新GPU来了,FPGA和ASIC要扔掉吗?

雷锋网AI科技评论消息,美国时间5月10日,NVIDIA CEO黄仁勋在开发者大会GTC2017上发布新一代GPU架构Volta,首款核心为GV100,采用台积电12nm制程,最大亮点是成倍提升了推理性能,意欲在目前称霸机器学习训练场景的基础上,在推理场景也成为最佳商用选择. GV100 GPU 英伟达的新GPU来了,FPGA和ASIC要扔掉吗? 英伟达的新GPU来了,FPGA和ASIC要扔掉吗? 据雷锋网(公众号:雷锋网)了解,Volta架构GV100 GPU采用台积电(TSMC)12nm F

英伟达告诉你,深度学习需要怎么样的新型高性能计算

今天深度学习无处不在,当你打开移动终端的时候,各种APP会推荐到你喜欢的食物.你喜欢的电影,你关注的新闻热点.在生活中更是改变着我们,今天的智能语音让语言障碍破除,在预测疾病基因大数据领域预测疾病来确定药物治疗方案.在安全领域通过安装在机场和商场的智能视频监控,提高了公共安全性.可以说,深度学习的应用,彻底改变了今天人们的生活. 在上世纪九十年代PC-互联网时代以微处理器.标准操作系统.以及信息世界新门户的结合推动社会的进步,代表有CPU.WINDOWS.各类门户网站.PC-互联网时代让大约10