上图:2017年2月,在伦敦科学博物馆举办的科学博物馆机器人展览会的预览上展示的世界首款安卓机器人新闻播报员Komoroid.
GPU(或称图形处理单元)的应用程序已然远远超过了其本身。超级计算机设计人员们发现它们非常适合于从他们所建立的系统中的CPU卸载大量的工作负载;其也被证明是一种被称为深度学习(Deep Learning)的机器学习方法的超高效处理器。这正是Google公司用来提供有针对性的广告的AI类型,而亚马逊的Alexa则可以用于即时回答语音查询。
创建相应的算法,使得计算机能够通过观察和迭代来进行学习无疑是相当复杂的;同样令人难以置信的是:设计计算机系统来执行这些指令,并借助数据中心的基础设施来为这些系统供电和冷却。 Ober在Nvidia公司的超大规模客户数据中心系统中深入了解了这一深度学习。
他在接受Data Center Knowledge网站的记者采访时表示说:“我们一直在大型数据中心处理大量超大规模(真正的超大规模)。 而建立一款用于深入学习培训的GPU系统是一个非常浩大困难的工程问题。这真的非常非常难。即使像Facebook和微软这样的互联网巨头企业们也在努力。”
上图:Facebook最新的AI服务器Big Basin.八个散热器中的每一个都隐藏着GPU. (照片来源:Facebook)
训练一款AI需要花费大量功率能耗
培训是深度学习中所涉及到的一种计算工作负载(或者说是一类工作负载,因为该领域正在发展,并且有几种不同的培训方法)。其目的是教授一款深层神经网络——一个计算节点网络,旨在模拟人脑中的神经元相互作用的方式——从现有数据中提取新功能。例如,一款神经网络可以通过重复地“查看”多张其中含有狗的各种图像来学习识别照片中的狗,图像中的狗将被标记为狗。
其他类型的工作负载是推理,这是一款神经网络将其知识应用于新数据的领域(例如,识别之前未见过的图像中的狗)。
Nvidia公司为上述两个类别的工作负载制作GPU.但是,在数据中心实施培训可以说是特别困难的部分,因为用于培训的硬件需要非常密集的GPU群集,或者每台服务器具备多达可支持8个GPU的互连服务器。而这样的一款机柜可以很容易地消耗掉30kW以上的功率密度,超级计算机领域之外的大多数数据中心都不是为这一大功率密度提供支持而设计的。即使这样,在这个范围的低端,大约20款这样的机柜需要消耗与AT&T体育球场达拉斯牛仔队的超大屏幕一样多的功率,后者是世界上最大的1080p视频显示器,其中包含3000万个灯泡。
“我们的确是给很多数据中心的基础设施带来了真正的压力,”Ober在谈到Nvidia公司的GPU时表示说。 “通过深度学习培训,企业通常希望尽可能的能够使得计算池尽可能密集,这样就会消耗掉相当惊人的功率密度,这无疑是一大真正的挑战。”另一个问题是如何控制这些集群中的电压。 GPU计算本质上是在瞬变中产生大量的电力(电压突然上升),而且这些都是难以应付处理的。“
互连节点是另一大挑战难题。 Ober说:“根据您的培训数据来源的不同,数据中心网络的负担可能是令人难以置信的。” “你企业可以创造一个真正火的热点。”在他看来,电力密度和网络可能是数据中心系统深度学习的两大设计挑战。
上图: Tesla P100 是Nvidia公司功能最为强大的GPU(照片来源:Nvidia公司)
人工智能的冷却
Ober说,像Facebook和微软这样的超大规模的数据中心运营商们主要是通过将他们的深度学习集群传播到许多机架上来解决功率密度的挑战,尽管会在液体冷却或液体辅助冷却方面面临一定的“困惑”。液体冷却是将冷冻水直接输送到主板上的芯片(冷却超级计算机的通用方法),而液体辅助冷却则是将冷冻水带到连接到IT机柜的热交换器上,通过冷却空气来为服务器提供冷却。
并不是每家需要支持高密度深度学习硬件的企业都拥有令人羡慕的数十万平方英尺的数据中心空间,对于那些没有如此规模的数据中心供应商,例如选择专注于高密度的数据中心来说,已经选择了采用液体辅助冷却的路线。最近,市场对于这些供应商的服务需求已经出现了飙升,而这在很大程度上是受益于市场对于机器学习日益增长的兴趣。
包括初创公司和大型公司正在积极的寻求各种方式来利用广泛预测的技术来推动下一轮的技术创新浪潮,但其中的大多数公司并没有必要的基础设施支持这项开发工作。高密度数据中心供应商ScaleMatrix公司的联合创始人克里斯。奥兰多(Chris Orlando)在接受采访时表示说:“现在, GPU支持的工作负载是我们所看到增长最大的工作负载,而这些工作负载绝对是来自企业部门。企业级别的数据中心并没有这样的装备。”
曲棍球棒状的增长
这方面需求增长的飙升是最近才刚刚开始的。奥兰多说,他的公司在去年年中的某个时候发现了一个曲棍球棒状的增长轨迹。而推动这一需求增长的其他应用程序则一直是生命科学和基因组学的计算(ScaleMatrix在圣地亚哥以外的旗舰数据中心的最大客户之一,这种类型的研究的枢纽是基因组学研究的J.克雷格文特研究所),地理研究和大数据分析。在其位于休斯顿的第二处数据中心,大部分需求则来自石油和天然气行业,其勘探工作需要一些高辛烷值的计算能力。
ScaleMatrix公司在圣地亚哥的另一家主要的客户是Cirrascale公司,这是一家专门从事深度学习基础设施的硬件制造商和云服务提供商。
上图:ScaleMatrix圣地亚哥数据中心内部一览(照片来源:ScaleMatrix公司)
ScaleMatrix圣地亚哥数据中心的每台机柜均可以通过利用中央设备的冷却水来冷却完全封闭的机柜周围的空气,以支持高达52kW的机柜的冷却需求。定制化设计的系统的冷却水循环位于机柜的顶部,其中来自服务器的热排出的空气升高并被冷却,进而推回到主板上。而伴随着企业对高密度计算的需求的不断增长,该公司最近已经开始在向那些有兴趣在内部部署这项技术的企业销售该技术了。
一家位于硅谷的数据中心供应商Colovore公司也在专注于高密度的托管服务。该公司正在使用更典型的后门热交换器,在当前第一阶段为每台机架提供高达20kW的功率密度,在即将到来的第二阶段将提供35kW的功率密度。至少已经有一家客户对其超过35kW功率密度的机架表示了兴趣,因此该公司正在探索将冷冻水直接送入类似超级计算机系统的主板的可能性。
今天,Colovore的数据中心容量处理能力的“很大一部分比例”是用于支持GPU集群进行的机器学习,该公司的联合创始人兼总裁肖恩。霍茨克内西(Sean Holzknecht)在接受采访时表示。与ScaleMatrix公司一样,Colovore目前正处在其发展道路的一个很好的位置。硅谷是在机器学习、自动无人驾驶汽车、生物信息学等领域推动信息化的公司发展的最佳平台,而且精品供应商的高密度数据中心空间也不乏需求。
上图:Colovore公司数据中心地板下方一览,该图显示了支持水冷却门的基础设施。 (照片来源:Colovore公司)
对AI硬件的需求激增
而市场对于由Colovore公司和ScaleMatrix公司所提供的基础设施的需求可能会持续性的增长。机器学习目前还仅仅处在早期阶段,而大型云平台企业(包括诸如Google,Facebook,微软和阿里巴巴等等几家公司)正在使用该技术进行生产。当前,该领域的许多活动包括开发,但这项工作仍然需要消耗大量的GPU功率。
Nvidia公司表示,目前市场对于AI硬件的需求正在激增,其中绝大部分都是由像亚马逊网络服务(Amazon Web Services),谷歌云平台(Google Cloud Platform)和微软Azure这样的企业级云巨头所推动的,这些企业同时也提供机器学习,从而增强了云服务和原始的GPU功耗。市场对于最强大的云GPU实例的可用性极为渴求。Nvidia公司的Ober表示说:“目前,拥有GPU实例的云服务供应商们正在获得令人难以置信的消费和关注度。” “这真的表明了当前的企业客户正在转移到采用他们所能够获得的最大的实例。”
本文作者:佚名
来源:51CTO