深度学习推动数据中心功率密度

上图:2017年2月,在伦敦科学博物馆举办的科学博物馆机器人展览会的预览上展示的世界首款安卓机器人新闻播报员Komoroid.

GPU(或称图形处理单元)的应用程序已然远远超过了其本身。超级计算机设计人员们发现它们非常适合于从他们所建立的系统中的CPU卸载大量的工作负载;其也被证明是一种被称为深度学习(Deep Learning)的机器学习方法的超高效处理器。这正是Google公司用来提供有针对性的广告的AI类型,而亚马逊的Alexa则可以用于即时回答语音查询。

创建相应的算法,使得计算机能够通过观察和迭代来进行学习无疑是相当复杂的;同样令人难以置信的是:设计计算机系统来执行这些指令,并借助数据中心的基础设施来为这些系统供电和冷却。 Ober在Nvidia公司的超大规模客户数据中心系统中深入了解了这一深度学习。

他在接受Data Center Knowledge网站的记者采访时表示说:“我们一直在大型数据中心处理大量超大规模(真正的超大规模)。 而建立一款用于深入学习培训的GPU系统是一个非常浩大困难的工程问题。这真的非常非常难。即使像Facebook和微软这样的互联网巨头企业们也在努力。”

上图:Facebook最新的AI服务器Big Basin.八个散热器中的每一个都隐藏着GPU. (照片来源:Facebook)

训练一款AI需要花费大量功率能耗

培训是深度学习中所涉及到的一种计算工作负载(或者说是一类工作负载,因为该领域正在发展,并且有几种不同的培训方法)。其目的是教授一款深层神经网络——一个计算节点网络,旨在模拟人脑中的神经元相互作用的方式——从现有数据中提取新功能。例如,一款神经网络可以通过重复地“查看”多张其中含有狗的各种图像来学习识别照片中的狗,图像中的狗将被标记为狗。

其他类型的工作负载是推理,这是一款神经网络将其知识应用于新数据的领域(例如,识别之前未见过的图像中的狗)。

Nvidia公司为上述两个类别的工作负载制作GPU.但是,在数据中心实施培训可以说是特别困难的部分,因为用于培训的硬件需要非常密集的GPU群集,或者每台服务器具备多达可支持8个GPU的互连服务器。而这样的一款机柜可以很容易地消耗掉30kW以上的功率密度,超级计算机领域之外的大多数数据中心都不是为这一大功率密度提供支持而设计的。即使这样,在这个范围的低端,大约20款这样的机柜需要消耗与AT&T体育球场达拉斯牛仔队的超大屏幕一样多的功率,后者是世界上最大的1080p视频显示器,其中包含3000万个灯泡。

“我们的确是给很多数据中心的基础设施带来了真正的压力,”Ober在谈到Nvidia公司的GPU时表示说。 “通过深度学习培训,企业通常希望尽可能的能够使得计算池尽可能密集,这样就会消耗掉相当惊人的功率密度,这无疑是一大真正的挑战。”另一个问题是如何控制这些集群中的电压。 GPU计算本质上是在瞬变中产生大量的电力(电压突然上升),而且这些都是难以应付处理的。“

互连节点是另一大挑战难题。 Ober说:“根据您的培训数据来源的不同,数据中心网络的负担可能是令人难以置信的。” “你企业可以创造一个真正火的热点。”在他看来,电力密度和网络可能是数据中心系统深度学习的两大设计挑战。

上图: Tesla P100 是Nvidia公司功能最为强大的GPU(照片来源:Nvidia公司)

人工智能的冷却

Ober说,像Facebook和微软这样的超大规模的数据中心运营商们主要是通过将他们的深度学习集群传播到许多机架上来解决功率密度的挑战,尽管会在液体冷却或液体辅助冷却方面面临一定的“困惑”。液体冷却是将冷冻水直接输送到主板上的芯片(冷却超级计算机的通用方法),而液体辅助冷却则是将冷冻水带到连接到IT机柜的热交换器上,通过冷却空气来为服务器提供冷却。

并不是每家需要支持高密度深度学习硬件的企业都拥有令人羡慕的数十万平方英尺的数据中心空间,对于那些没有如此规模的数据中心供应商,例如选择专注于高密度的数据中心来说,已经选择了采用液体辅助冷却的路线。最近,市场对于这些供应商的服务需求已经出现了飙升,而这在很大程度上是受益于市场对于机器学习日益增长的兴趣。

包括初创公司和大型公司正在积极的寻求各种方式来利用广泛预测的技术来推动下一轮的技术创新浪潮,但其中的大多数公司并没有必要的基础设施支持这项开发工作。高密度数据中心供应商ScaleMatrix公司的联合创始人克里斯。奥兰多(Chris Orlando)在接受采访时表示说:“现在, GPU支持的工作负载是我们所看到增长最大的工作负载,而这些工作负载绝对是来自企业部门。企业级别的数据中心并没有这样的装备。”

曲棍球棒状的增长

这方面需求增长的飙升是最近才刚刚开始的。奥兰多说,他的公司在去年年中的某个时候发现了一个曲棍球棒状的增长轨迹。而推动这一需求增长的其他应用程序则一直是生命科学和基因组学的计算(ScaleMatrix在圣地亚哥以外的旗舰数据中心的最大客户之一,这种类型的研究的枢纽是基因组学研究的J.克雷格文特研究所),地理研究和大数据分析。在其位于休斯顿的第二处数据中心,大部分需求则来自石油和天然气行业,其勘探工作需要一些高辛烷值的计算能力。

ScaleMatrix公司在圣地亚哥的另一家主要的客户是Cirrascale公司,这是一家专门从事深度学习基础设施的硬件制造商和云服务提供商。

上图:ScaleMatrix圣地亚哥数据中心内部一览(照片来源:ScaleMatrix公司)

ScaleMatrix圣地亚哥数据中心的每台机柜均可以通过利用中央设备的冷却水来冷却完全封闭的机柜周围的空气,以支持高达52kW的机柜的冷却需求。定制化设计的系统的冷却水循环位于机柜的顶部,其中来自服务器的热排出的空气升高并被冷却,进而推回到主板上。而伴随着企业对高密度计算的需求的不断增长,该公司最近已经开始在向那些有兴趣在内部部署这项技术的企业销售该技术了。

一家位于硅谷的数据中心供应商Colovore公司也在专注于高密度的托管服务。该公司正在使用更典型的后门热交换器,在当前第一阶段为每台机架提供高达20kW的功率密度,在即将到来的第二阶段将提供35kW的功率密度。至少已经有一家客户对其超过35kW功率密度的机架表示了兴趣,因此该公司正在探索将冷冻水直接送入类似超级计算机系统的主板的可能性。

今天,Colovore的数据中心容量处理能力的“很大一部分比例”是用于支持GPU集群进行的机器学习,该公司的联合创始人兼总裁肖恩。霍茨克内西(Sean Holzknecht)在接受采访时表示。与ScaleMatrix公司一样,Colovore目前正处在其发展道路的一个很好的位置。硅谷是在机器学习、自动无人驾驶汽车、生物信息学等领域推动信息化的公司发展的最佳平台,而且精品供应商的高密度数据中心空间也不乏需求。

上图:Colovore公司数据中心地板下方一览,该图显示了支持水冷却门的基础设施。 (照片来源:Colovore公司)

对AI硬件的需求激增

而市场对于由Colovore公司和ScaleMatrix公司所提供的基础设施的需求可能会持续性的增长。机器学习目前还仅仅处在早期阶段,而大型云平台企业(包括诸如Google,Facebook,微软和阿里巴巴等等几家公司)正在使用该技术进行生产。当前,该领域的许多活动包括开发,但这项工作仍然需要消耗大量的GPU功率。

Nvidia公司表示,目前市场对于AI硬件的需求正在激增,其中绝大部分都是由像亚马逊网络服务(Amazon Web Services),谷歌云平台(Google Cloud Platform)和微软Azure这样的企业级云巨头所推动的,这些企业同时也提供机器学习,从而增强了云服务和原始的GPU功耗。市场对于最强大的云GPU实例的可用性极为渴求。Nvidia公司的Ober表示说:“目前,拥有GPU实例的云服务供应商们正在获得令人难以置信的消费和关注度。” “这真的表明了当前的企业客户正在转移到采用他们所能够获得的最大的实例。”

本文作者:佚名

来源:51CTO

时间: 2024-09-28 23:30:46

深度学习推动数据中心功率密度的相关文章

IDF14:推动数据中心重构 服务数字经济时代

在服务市场,英特尔凭借出色的处理器赢得了市场的认可,而在这个领域,英特尔也是绝对的领导者.为了更好的推动数据中心重构,英特尔也在做着不断的努力.英特尔于9月10日上午举行了数据中心专场会议,英特尔http://www.aliyun.com/zixun/aggregation/1719.html">高级副总裁柏安娜(Diane M. Bryant)探讨数据中心正如何被重构,这在很大程度上是受到数字化服务经济崛起的推动.在此次会议上,柏安娜女士描述了日益扩大的工作负载优化.软件定义基础设施转移

推动数据中心转型的四大驱动力

云计算.物联网.移动社交和大数据是推动数据中心变革的颠覆性力量.数据中心需要迅速变革,这场变革背后的驱动因素有哪些呢?本文归纳了四大驱动力: 颠覆性技术: 对大数据和物联网等技术(以及与这些技术相关的货币化)的使用将快速增加,数据中心在面临这些新的需求时要保持灵活性和可靠性,也因此面临新的压力.据Gartner预测,今年将49亿资产将成为物联网的一部分,截至2020年,被物联网连结起来的"物"将达到250亿.这些巨大的数字似乎离我们有些遥远,但是看看期望实地跟踪智能产品的消费电子公司,

可再生能源的创新推动数据中心绿色繁荣

日前,数据中心行业专家伊恩·比特林援引ComputerWeekly(计算机周刊)的报道说,数据中心的能源成本巨大,占其运营总成本的20%到60%.而迈克尔·卡恩罗斯在2015年2月发表的专稿文章中写道,"电力成本往往是大型数据中心运行成本的第二或第三高的成本." 数据中心行业厂商致力采用成本较低,提供稳定的价格和更可持续的电力来源,并不断推动创新,以及在数据中心新技术方面积极参加投资.在未来的时代,数据中心将采用全新的能源,这些新能源技术如太阳能和风能.以下是可再生能源推动数据中心绿色

Intel推动数据中心标准化"给力"云计算

▲一直以来,用户的数据中心应用模型都是由供应商单方面来定义,各个企业数据中心"星球"运行在各自封闭的"轨道"上. &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; ▲由供应商单方面来定义用户数据中心应用模型不仅缺乏开放性,而且难以满足企业应用. ▲英特尔推动开放数据中心联盟(ODCA)的建立,并担任ODCA长期的可信赖技术顾问.企业数据中心"星球"封闭的&

美光科技推最高容量企业级SATA固态硬盘 推动数据中心革新

美光科技有限公司今天推出了美光5100 系列企业级 SATA 固态硬盘 (SSD) 产品,旨在让着眼于未来的数据存储平台全方位满足对性能.容量和企业级可靠性的需求.美光科技的 5100 系列企业级 SATA 固态硬盘让 IT 人员能够轻松进行迁移,完善基础设施,为迎接未来的全闪存数据中心做好准备. 5100 系列拥有业界领先的 8 太字节 (TB) 容量,以及为应对数据海啸而精心设计的性能特点,可帮助应对当今多样化数字世界带来的数据洪流. • 服务质量 (QoS) 更优--极其高效的服务质量 (

2015年推动数据中心领域变革的十大趋势

近日召开的加特纳集团IT运营战略和解决方案峰会上,分析师DavidJ.Cappuccio概述了有望在明年及之后影响数据中心的十大IT趋势. 数据中心技术正以惊人的速度不断涌现和不断变化.只要想想像虚拟化这样的新兴概念如何在短短几年内变成一项必不可少的基础设施技术,或者想想固态硬盘在高性能存储缓存和虚拟存储区域网(SAN)部署环境中扮演越来越广泛的角色. IT专业人员需要密切关注新动向,并考虑那些产品或项目给数据中心以及公司业务可能带来的影响.在近日召开的加特纳集团IT运营战略和解决方案峰会上,分

云推动数据中心40GE交换机销量激增!

近几年,随着互联网.移动互联网.云计算和大数据等产业的加速发展,全球(云)数据中心的建设速度不断加快,这也全面带动了数据中心基础设施的发展,比如以太网交换机.据Dell'Oro针对电信和企业领域数据中心市场的调查报告显示,2016年第一季度数据中心40GE交换机市场表现强劲--实现同比40%增长! 该报告还显示,Arista.Cisco.HPE(Hewlett Packard Enterprise).Juniper和白盒交换机厂商在2016年1季度40GE交换机的销售额均超过了400万美元. 网

Enlitic创始人Jeremy Howard专访:我眼中的深度学习与数据科学

提起Jeremy Howard,人工智能和大数据领域的从业者们可谓无人不知无人不晓. 他是Enlitic.FastMail.Optimal Decisions Group三家科技公司的创始人兼CEO,是大数据竞赛平台Kaggle的前主席和首席科学家,是美国奇点大学(Singularity University)最年轻的教职工,是在2014达沃斯论坛上发表主题演讲的全球青年领袖,他在 TED 上的演讲<The wonderful and terrifying implications of com

大数据推动数据中心变革 整机柜服务器落地

随着云计算的蓬勃发展,每一个真正洞悉"数据淘金"的企业,都在盘算着大数据落地的时刻表,但我们的数据中心真正准备好了吗? 面对呼啸而来的信息洪水,海量的数据.多样化的信息服务. 复杂的数据聚合与交互,这些未来信息服务的巨大压力,必定会落在服务器上,而不论是 塔式.机架.刀片.还是整机柜服务器,能否提供强大的支撑力吗? 拥抱开源,贡献社区,大数据时代,会有越来越多的用户使用Hadoop,但它安全吗? 数据中心变革再次来临 今天,超过85%的国际化企业已经在应用社交网络,移动互联网正在以信息