看浪潮AI服务器NF5288M5如何做到全球密度最高

7月12日,浪潮发布了新一代M5服务器家族,其中最引人瞩目的莫过于号称全球首款2U8 NVLink? GPU密度最高、性能最强的AI服务器NF5288M5。这款产品是浪潮与NVDIA联合研发的创新计算平台,能满足AI云、深度学习模型训练和线上推理等各类AI应用场景对计算架构性能、功耗的不同需求。

每U搭载4颗GPU的密度、960TFlops的性能、ns级的延迟等性能参数都让人眼前一亮。但是或许你还有些疑问,为什么要设计如此强大的AI计算设备?会带来怎样的价值?如此大功率和高密度的设计还能保证稳定性吗?本文将为大家解答这些疑惑。

AI超级计算机NF5288M5

AI训练的"三座大山"--效率、弹性和密度

人工智能发端于上世纪五十年代,经历了几次繁荣与低谷,直到AlphaGo赢得世界围棋比赛,"人工智能"写进今年的政府工作报告中,人工智能热潮彻底爆发。就在昨天,国务院首次印发《新一代人工智能发展规划》,将人工智能提到了国家战略高度。AI训练的快速发展对计算力的需求呈井喷式发展,然而当前市场上的AI计算平台普遍面临着通讯效率低下、平台架构僵化、计算密度低等问题。

异构通讯开销严重影响计算效率:在AI训练中,采用CPU+GPU异构计算架构,通常需要以CPU为训练模型下发指令,给GPU"喂"数据,控制计算过程,提供逻辑判断,控制外部设备等。而GPU则需要接收来自CPU的数据,提供高性能的并行计算,将结果返回给CPU。这一来一回看似合理,但是实际上CPU和GPU分担着整个计算任务中不同的部分,他们之间需要频繁的通讯,而一旦通讯频次过高,CPU和GPU就需要花费大量的时间进行相互通讯,严重影响整个计算架构的效率。

多样化AI场景亟需弹性异构平台:目前市面上成熟的AI框架有十多种,像标准的图像、语音、语意理解等神经模型的数量则更为庞大。不同的AI框架包含了不同的模型和算法,比如SoftMax回归、聚类、决策树或梯度策略等,产生不同规模的训练数据。如针对大规模被标记的图片、语音信息,有文字信息的图片等,训练场景会变得十分多样化。多样化的AI训练场景对异构计算的服务器要求必然也各不相同,有的需要更多的GPU介入进行加速,有的则更依赖CPU和GPU进行相互迭代,有的需要大量的数据并行,有的需要进行模型并行,由此产生了对CPU和GPU计算架构的多样化需求。

计算密度没有最高只有更高:普通的AI图片聚类训练通常需要几十万个样本进行十几万次训练迭代,而面向自动驾驶或人员行为分析识别等应用时,训练量会呈几何数增加。为了保证模型能在有限的时间内做到足够收敛,某些模型甚至需要超过200片GPU卡以AI服务器集群的方式并行。为节省宝贵的数据中心空间,提高服务器的密度成为不二手段,更高密度的AI服务器不但节约了数据中心的基础设施,更大规模的机内互连也对网络等设备的依赖大大降低。

浪潮NF5288M5--AI计算加速器

为了提升计算效率、满足多样化AI场景需求,浪潮NF5288M5另辟蹊径,变异构为同构,消除了异构通信带来降低计算效率的烦恼。此外,为了更大幅度地提升服务器计算效率,满足AI应用对计算力的需求,NF5288M5在架构设计中将计算密度做到了极致。而为了满足客户对弹性架构平台的需求,NF5288M5创新地采用PCIe连接资源,实现更加灵活的拓扑。

浪潮NF5288M5

极致效率、异构变同构:NF5288M5抛弃传统异构计算架构模式,在2U空间内支持部署8块NVLink或PCI-E 接口的NVIDIA? Tesla? P100 GPU,可以在不依赖CPU的前提下,实现机内点到点通讯,减少了异构通讯的次数;并在业界率先支持NVLink 2.0和最新发布的NVIDIA? Tesla?系列GPU,可以实现GPU间高达300GB/s的互连带宽,并提供极低的延迟,让多块GPU并行的效率大幅提升超过60%。将GPU同构,把NF5288M5的并行计算效率尽可能推到极限。

NF5288M5性能对比

极致密度、更高计算力:与浪潮支持2U4卡的NF5288M4对比测试,NF5288M5采用P100的Linpack浮点运算性能达29.33TFLOPS,是同样采用P100 NF5288M4的2.47倍;在AI深度学习模型训练上,当采用TensorFlow框架和GoogLeNet模型,NF5288M5处理速度为每秒1165幅图片,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。在实现了性能和效率双提升的同时,机箱仍然保持了和上一代一样的2U高度,实现了最高的GPU卡部署密度。在超大规模AI训练集群或HPC集群引用时,可以帮助客户节省数据中心的基础设施资源,更有利于数据中心的空间分配。

极致灵活、弹性计算拓扑:NF5288M5采用PCIe线缆的方式连接CPU和GPU资源,可以灵活调整CPU的连接带宽和连接数量,在应对不同的AI应用时,更好的做到PCIe资源按需分配。灵活的计算架构可以让一颗或两颗CPU管理8颗GPU,也可以通过GPU扩展box的方式,实现最大16GPU的纵向扩展。而服务器提供的PCIe I/O,8个U.2插槽, 或多达4块100Gbps InfiniBand网卡,都可以根据计算灵活调整拓扑。NF5288M5弹性的异构平台,足以支撑多样化的AI场景。

极致设计背后带来的极限挑战

NF5288M5通过优秀的设计,实现了性能、灵活性和密度的多维度增强,然而这背后带来的却是对互连、供电和散热设计的三大极限挑战。如何在一个系统中实现GPU卡的灵活配置,满足高达3000W的供电需求,并在有限的空间内解决散热,成为了开发这款产品的三大难题 。在此就给大家一一揭秘NF5288M5是如何做到的。

300GB/s聚合带宽的Cube Mesh拓扑

互连挑战:有别于业界异构服务器CPU和GPU紧耦合的互连方式,NF5288M5采用解耦式设计,不但提供灵活性,同时还支持高达300GB/s的NVIDIA? NVLink?GPU互连带宽。浪潮结合刀片服务器的设计思路,把这些组件紧凑的布局到2U空间中,并基于8路服务器的设计经验,确保NVLink?的走线长度、信号都处在最佳状态,以保证GPU的性能发挥。

供电挑战:8块功耗高达300W的GPU,以及服务器内其他的计算、存储和I/O资源,整机的功耗需求达到3000W,供电如何走线成为最大的挑战。NF5288M5借鉴了浪潮在整机柜服务器的供电设计方式,对单服务器内部采用无线缆供电设计,减少了供电线缆对空间的占用以及对散热气流的影响。在保证供电能力的同时,对空间、散热的影响降到最低。

NF5288M5散热风道设计

散热挑战:3000W的供电,意味着3000W的峰值发热量,6倍于传统的2U服务器,散热成为一个绕不过的难题。NF5288M5在设计之初,从布局、风道和气流多个方面统筹进行考虑。低发热量组件前置,高发热量组件后置,避免局部热点,让空气在服务器的内部均衡的升温,再通过高速风扇将热量快速带出服务器,最终NF5288M5可以和传统服务器一样工作在35℃的环温下。并且为了支持低PUE数据中心,还可以配置气液混合散热,甚至可以支持45℃的高环温运行。

100%的计算密度提升、960TFlops的计算力、200倍的单机AI训练性能,NF5288M5无愧是一款最高密度、最高性能的AI服务器,无论是在面向人工智能训练还是HPC应用时,都将为用户提供极致性能体验。和传统概念的高性能集群相比,GPU同构、灵活拓扑和超高密度的整体架构,让应用和硬件的结合,变得更为高效和紧密。

原文发布时间为: 2017年7月24日

时间: 2024-08-10 23:28:42

看浪潮AI服务器NF5288M5如何做到全球密度最高的相关文章

看浪潮M5如何应对“万物AI时代”

继年初人工智能首次写入政府工作报告后,国务院近日印发我国第一个人工智能(AI)规划--<新一代人工智能发展规划>,人工智能从一个技术热点上升为一项国家战略.而作为智慧计算领导者的浪潮,近期发布了M5新一代服务器,推出通用.融合架构.应用优化和关键业务4大系列35款产品,面向云计算.大数据.深度学习三大应用场景提供业界最丰富的产品阵列,为国家人工智能战略的发展提供了极致丰富的计算平台. 浪潮AI产品家族 人工智能是浪潮智慧计算的重心 新一代M5反映出浪潮比较重要的变化是,服务器设计从均衡开始走向

浪潮天梭服务器打破SPEC测试世界纪录

我们知道,负责采购服务器的决策人在选择产品的时候,通常偏重于"看参数",比如主频.内存.扩展性,实际上集中于产品本身,看其技术指标是否领先:一个还是多个CPU:是双核还是四核:内存通道是1GB还是4GB.实际上,这种观察角度并不具备很大意义. 急于迈上信息化高速路的用户,在选购服务器的时候往往是一头雾水.面对和PC指标类似但是应用模式差异巨大的服务器,很多采购决策人在选购产品时,只能依靠那些参数来决定产品的型号.但是,当服务器接入到实际应用以后,最终用户往往发现,这些服务器无法满足自身

浪潮四路服务器再次刷新SPEC测试记录

 浪潮NF8480M4 在SPEC JBB测试名列E7平台四路服务器世界第一 日前,SPEC2015官网公布了最新的jbb2015测试成绩榜单,浪潮NF8480M4四路服务器以每秒完成219406次Java事务处理一举拿下该项测试中的最好成绩.目前,Java技术已经广泛应用于企业大型数据中心.高性能计算.银行电子交易.互联网等领域,越来越多的客户除了关注服务器自身的硬件贵和和性能指标之外,开始关注服务器基于Java应用的运行性能.  企业级Java应用的现实参考 jbb2015(Java Bus

浪潮四路服务器创造SPEC CPU最好成绩

在最新发布的SPEC CPU CINT 2006测试排行榜中,浪潮NF8480M4刷新了该项测试四路服务器的最好成绩,峰值成绩为3570.短短2个月,浪潮天梭TS860G3和NF8480M4相继打破该项测试的八路和四路服务器的世界纪录.   国际标准化性能评估组织SPEC(The Standard Performance Evaluation Corporation)是一个全球性.权威的第三方非营利性应用性能评估组织,致力于建立.维护以及完善一系列最新的服务器应用性能评估标准,拥有10大类测试标

浪潮NP370G2服务器

服务器 基于英特尔至强处理器的浪潮英信NF280 G2服务器,是一款高可靠性.易扩展的2U双路服务器.凭借智能散热系统和智能扩展设计在有限的空间内完美展现了高可靠性.易扩展的特性,可以满足您当今的需求,并在未来随着您企业的发展不断扩展. ·采用64位英特尔?至强TM处理器,支持64位兼容32位应用,提供彭湃的计算动力. ·自适应散热系统与先进的热管散热技术.无线缆模块化设计相结合,有效保障系统稳定运行. ·支持多种存储和I/O方案,结合关键部件热插拔技术,让企业轻松实现弹性部署. ·增强型RAI

应用服务器-大牛们看一下,服务器为什么会报异常啊

问题描述 大牛们看一下,服务器为什么会报异常啊 [#|2015-09-14T19:42:38.868+0800|SEVERE|inforsuite9.1.2|javax.enterprise.system.std.com.sun.enterprise.server.logging.LogManagerService|_ThreadID=20;_ThreadName=Thread-2;|RO调用中,执行方法异常budget.control...IBudgetControlContext.getYs

浪潮预计服务器业务09年销售额增长25%

5月27日消息,相关人士近日透露,浪潮服务器业务09财年的业绩目标和08财年持平,为销量增长15%,销售额增长25%,这一增速为行业平均速度的两倍.为此,浪潮服务器部门近日发布了名为"金鼎计划"的2009财年营销策略,将重点锁定文化.卫生等行业市场. 浪潮集团服务器存储营销本部市场推进部总经理庞松涛近日介绍说,"金鼎"寓意通过"细分.聚焦.协同"这三大策略,缩小与国际品牌在应用层面的差距.具体而言,"细分"是指细分市场.细分应

出乎意料!IBM宣布将帮助浪潮设计服务器系统

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 IBM宣布将帮助浪潮设计服务器系统 北京时间8月22日消息,据路透社报道,IBM周五宣布,将帮助中国最大服务器厂商浪潮国际设计服务器系统.由于两家企业在中国科技市场互为竞争对手,所以今天的合作令外界出乎意料. 自从去年以来,浪潮一直向中国国企大力推销其服务器,以取代IBM系统.今年5月底,浪潮对中国新闻媒体称,该公司的服务器已经开始在大型金融

浪潮可信服务器填补云计算安全领域空白

对业界而言,"可信计算"已不是一个新鲜名词.但在服务器领域,可信计算的应用及产品却一直未得到突破性的发展.这一方面或许是出于服务器对性能及稳定性的要求较高,在发展到虚拟化服务器后,对底层平台的虚拟化更是没有得到有效的支持,而另一方面,用户自身对可信计算的认识和采用程度也远远未达到普及的标准. 然而,随着国际信息安全局势发生的巨大变化,特别是自"棱镜门"之后,国家和企业均面临着前所未有的信息安全挑战.特别是今年以来,国家一系列措施的出台,实现对信息安全的自主可控成为一