阿里云HPC--人工智能加速利器

一. 什么是阿里云HPC

阿里云HPC是阿里云高性能计算的简称,有两重含义,一重含义是阿里云高性能计算产品,另一重含义是指阿里云高性能计算团队。

作为产品来讲,是中国第一个在公共云上推出的高性能计算的产品,也是中国首个推出公共云上的Nvidia Maxwell GPU + Intel Broadwell CPU 架构的强强组合的产品,单节点单精度计算能力超过16Tflops,初期提供物理机 + Tesla GPU加速卡形式。

推出阿里云HPC主要基于HPC用户的特点:(1)对高性能计算有永无止境的需求,不可以做多租户的共享,不可以把一台物理机分给多个用户来用,无论多少高的计算能力,都需要更高,无论多少集中的计算密集,都需要更集中的计算密集;(2)对GPU加速卡完整功能的需求,不能有功能的阉割;(3)需要和其他云产品互通,打通数据处理的上下游;(4)需要计算可以弹性扩展。因此催生了阿里云上HPC产品的诞生。

作为团队来讲,是指阿里云HPC的团队,我们是飞天八部技术创新团队,目前主要负责集团内GPU集群的建设、客户服务和应用的优化;以及公共云上HPC产品的运营、客户的服务和应用优化;同时我们还负责做一些前沿技术的研究,例如Nvidia/AMD GPU、Intel Xeon Phi、FPGA等在深度学习方面的技术预研。

二. 什么是人工智能加速利器

要了解什么是人工智能的加速利器,首先需要了解一下人工智能的发展简史:

  • 1950年,人们提出图灵测试,这是人工智能的萌芽阶段;
  • 1950年~1980年,人工智能进展缓慢;
  • 90年代~2000年,浅层机器学习模型的兴起,如SVM、LR、Boosting等算法;
  • 2006年,加拿大多伦多大学教授、机器学习领域泰斗——Geoffrey Hinton在《Science》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮;
  • 2011年,Google Brain项目取得了惊人的进展,机器通过看YouTube视频学会了识别猫和人,但需要2000个CPU的规模,NVidia和斯坦福大学的Andrew Ng合作,用12片GPU的深度学习能力替代了2000个CPU;
  • 2012年,多伦多大学的Alex在ImageNet图像识别比赛上获得冠军,Alex和他的团队没有编写任何视觉方面的专业代码,仅靠GPU驱动的深度神经网络,机器就学会了自己辨认图像;
  • 2015年,Google和微软靠GPU加速的深度神经网络,在ImageNet比赛中获得了多项击败工人辨识的准确度,人工智能的一个重大里程碑;
  • 2016年,谷歌旗下Deepmind团队研发的机器人AlphaGo以4比1战胜世界围棋冠军职业九段棋手李世石,这是人工智能历史上又一重大里程碑,AlphaGo在50块GPU上,训练了3.4亿步,用了3周的时间,AlphaGo的走棋网络是在176片GPU运行策略神经网络和估值神经网络。

从人工智能的简史可以看出,人工智能加速利器就是两个,一个是深度学习,或者称为为深度神经网络,另外一个就是GPU加速卡。因为训练深度神经网络的计算量非常非常大,例如大概需要30个Eflops的计算量,可以把一个人脸识别的模型训练出来,所以就非常需要除了CPU之外,单精度浮点能力特别强的计算的利器,这种利器就是GPU加速卡,深度学习和GPU是相辅相成缺一不可的。
阿里云HPC既提供Maxwell GPU加速卡,同时也提供深度学习性能优化和整套基础设施,下面介绍一下阿里云HPC在集团内和公共云上的深度学习实践。

三. 集团内深度学习实践

集团内有很多深度学习的业务场景,例如商品分类、拍照购物、商品风格的预测、商品质量的控制、反黄、人脸识别、图象搜索、OCR、标签识别、语音识别等。

阿里云HPC负责建设阿里巴巴深度学习集群,这个集群的业务主要是大规模深度学习训练、在线和离线预测等业务,我们负责该集群的统一化资源管理、调度和监控。目前集群的规模有上千片的K40和M40的GPU,通过Infiniband的网络互联。

同时我们也会对集团内的客户做深度学习方面的性能优化,有下面三个方面的优化。

第一点是系统层面,把单机的训练扩展到多机多卡的训练,以及提高图像、语音、视频等预测、分类的吞吐量;

第二点是针对GPU的微架构做优化。例如我们会对CNN卷积层做针对GPU微架构的优化,包括减少显存占用率,以及通过我们的性能优化工具优化;

第三点就是前面提到的优化工具的增强。我们会提供GPU极致性能优化工具AsKepler,目前支持SM35和SM37,它可以让用户自由的使用原生指令、自由的使用寄存器的映射、自由控制指令的调度,可以让我们更好了解微架构的特点,从而指导我们进行人工的优化或者编辑器的后端优化。例如,我们优化的2D卷积神经网络在Kepler架构上的性能世界第一,如图1所示,ourConv_sass 性能是cuDNNv2的2.1倍,是cuDNNv3的1.75倍。详情参考@长仁的文章:为什么要写一个GPU的汇编器 和 @念鸿的文章:Nvidia Kepler GPU上的性能极致优化
              
                                                                   图1. 2D卷积神经网络性能优化

此外还有集团内其他客户机器学习的深度优化案例,包括阿里妈妈LR和MLR的优化、IDST参数服务器优化、神马语音识别优化、IDST语音识别优化等实践案例后面都会单独发文章介绍,敬请期待。

四. 公共云上阿里云HPC深度学习实践

4.1 阿里云HPC深度学习基础设施

首先介绍一下阿里云HPC为深度学习提供的整套基础设施,如图2所示,阿里云HPC通过物理机CPU+GPU+ECS提供计算服务,通过阿里云众多产品打通深度学习的上下游处理链路:

  • OSS,分布式存储
  • NAS,并行文件系统
  • ODPS,实现高性能计算和大数据计算结合
  • ECS,在线预测服务
  • CDN,图像、视频在线、离线预测
  • SLB,高吞吐在线预测

图2. 阿里云HPC基础设施

如图3所示是一个典型的深度学习流程:分为离线训练、离线预测和在线预测三个业务场景,首先把要训练的数据存储在OSS/NAS上,通过ODPS做特征的提取和数据标注,然后将特征数据和标注好的数据传给HPC做离线训练,训练好的模型通过OSS/NAS传给离线预测或在线预测,在线预测部分由SLB将用户的请求分发到ECS或者HPC上做在线预测、分类,将结果直接返回给用户或者通过CDN分发给其他用户,另外分类好的数据也可以反馈给离线做进一步训练,形成一个深度学习的闭环链路。                                                                  图3. 阿里云HPC深度学习闭环链路

4.2 阿里云HPC深度学习应用一键部署

如图4所示,阿里云HPC通过阿里云容器服务来一键部署深度学习应用,首先打好深度学习应用镜像并上传到Docker Hub上,然后创建容器集群,通过容器管理中心起Agent、Routing、Volume、Monitor、Log等容器,然后通过Agent容器按照容器编排从Docker Hub下载镜像并起应用服务容器;服务请求通过容器服务的SLB和Routing容器传到相应的应用服务容器上,应用服务处理和响应请求。通过这种方式实现深度学习应用的一键部署和弹性扩容。

                                                                  图4. 阿里云HPC深度学习应用一键部署

此外,阿里云HPC上通过主机或者Docker镜像提供整套流行的深度学习工具,包括Caffe,cuDnn v4,Digits2, Torch,Theano,Mxnet, Tensorflow等,应有尽有,并且开箱即用,方便之极。

4.3 阿里云HPC深度学习客户应用案例

阿里云HPC上有很多深度学习的实际客户案例,例如Dress+、深图智服、神州租车、新浪微博等。
Dress+是一家专门做视觉搜索引擎的公司,他们把电商上数千万的商品和网络视频等产品联系起来,比如在看优酷视频的时候,发现一件很喜欢的衣服,用鼠标一点就能跳到相应的电商产品如淘宝、天猫里面找到相同或者类似的衣服。
如图5所示是Dress+的业务架构图,他们通过SLB做多实例负载均衡,通过HPC和ECS做图像和视频的预测和分类。


                                                                                图5. Dress+的业务架构图

另外一个喜讯就是由于阿里云HPC的出色服务能力,Dress+的业务从AWS迁移到阿里云HPC上来了 :)
同时,我们也服务和支持很多集团内用户迁移到阿里云HPC上来了,如神马语音、IDST语音、搜索语言技术、搜索推荐、搜索OCR、搜索数据实验室、B2B翻译等团队。

五. 总结及展望

阿里云HPC致力于加速集团内和公共云上所有客户的人工智能应用的发展,希望更多的人了解我们的产品和我们这支团队的能力,如果有深度学习或者高性能计算方面的加速需要,我们会全力支持并加速您的业务发展速度!
阿里云HPC官网网址是:https://cn.aliyun.com/product/hpc

感谢阅读!
昀龙
阿里云HPC

 

 

时间: 2024-11-27 15:07:20

阿里云HPC--人工智能加速利器的相关文章

在阿里云HPC和容器服务上,像梵高一样作画

本系列将利用Docker技术在阿里云HPC和容器服务上,帮助您上手TensorFlow的机器学习方案 第一篇:打造TensorFlow的实验环境 第二篇:轻松搭建TensorFlow Serving集群 第三篇:打通TensorFlow持续训练链路 第四篇:利用Neural Style的TensorFlow实现,像梵高一样作画 第五篇:轻松搭建分布式TensorFlow训练集群(上) 本文是该系列中的第四篇文章, 将为您介绍如何利用阿里云的服务瞬间变身梵高,给自己生活中的图片带来不一样的艺术气息

在阿里云HPC上用容器服务一键部署和运行WRF解决方案

背景 众所周知,容器技术的出现深刻改变了软件交付的方式: 敏捷: 秒级应用启动.轻量级隔离.细粒度资源控制.低性能损耗 标准化:版本管理可追溯. 可移植性: 环境无关的交付.部署方式:可用于软件生命周期中不同运行环境.这些能力不但影响了企业软件的开发.构建和交付模式,提高了交付效率和可靠性,也对于像WRF(Weather Research Forecast)这类大型开源气象科学预报软件产生了潜移默化的影响.美国国家大气研究中心(NCAR,也是WRF的开发方)于2016年开源了自己的容器化解决方案

阿里云携英伟达 建实验室拓展深度学习

本文讲的是阿里云携英伟达 建实验室拓展深度学习1月20日,2016云栖大会上海峰会在上海科技馆召开.全球领先的云计算服务提供商阿里云和全球视觉计算的行业领导者NVIDIA(英伟达)签署战略合作协议,双方将共同推广阿里云高性能计算平台HPC,大力拓展深度学习市场,并建立联合实验室,进行高性能计算领域相关技术的联合攻关. 阿里云HPC于去年底正式对外商用,每个计算节点配备2颗专属NVIDIA Tesla K40 GPU和2颗CPU.用户可通过阿里云官网(www.aliyun.com/product/

阿里云高性能计算今起商用 平台受热捧

本文讲的是阿里云高性能计算今起商用 平台受热捧[IT168 云计算]如果把普通计算机的运算比作成人走路,那么高性能计算机则可以称为计算机界的运载火箭,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型.复杂课题,在诸如天气预报.基因.核工业.军事.航天等高科技领域都可以见到高性能计算机的身影. 高性能计算机是一个国家科技实力的象征,人们熟知的"天河一号"."天河二号"就是我国自行研制的高性能计算机的代表. 近几年,基于互联网和人工智能技术的创业风起

阿里云战略合作英伟达 建联合实验室拓展深度学习市场

1月20日,2016云栖大会上海峰会在上海科技馆召开.全球领先的云计算服务提供商阿里云和全球视觉计算的行业领导者NVIDIA(英伟达)签署战略合作协议,双方将共同推广阿里云高性能计算平台HPC,大力拓展深度学习市场,并建立联合实验室,进行高性能计算领域相关技术的联合攻关. 阿里云HPC于去年底正式对外商用,每个计算节点配备2颗专属NVIDIA Tesla K40 GPU和2颗CPU.用户可通过阿里云官网(www.aliyun.com/product/hpc)购买GPU服务器实例.这是中国首个云上

【观察】​ET工业大脑落地江浙地区 中国智造动能和阿里云势能

随着"中国制造2025"国家计划的提出,中国制造业正在由"中国制造"走向"中国智造".在这其中,云计算正发挥着越来越重要的作用. 4月26日,在云栖大会·南京峰会的现场,江苏省经信委与阿里云联合启动江苏"1+30+300"工程.该工程是指推进江苏省内30家"信息化.工业化"融合服务机构.300家制造企业高效利用云计算.人工智能,打造江苏制造业与互联网融合创新发展标杆. 无独有偶,此前不久,浙江省信息化工作领

人工智能助力阿里云售后服务

服务问题的爆发 阿里云连续n个季度实现了三位数的增长!很多人看到光环和利润的时候,不会想象的到云计算背后的服务压力有多大!云计算大大降低了传统IT实施的技术门槛,用户群体迅猛增加.正如王坚博士所说,云计算正在逐渐成为像"水电一样的基础设施",然而却远远没有成熟到像水电那样简单易用.结果是,门槛的降低.行业的发展带来了售后服务需求量的爆发.与此同时,云产品越来越丰富,功能和架构也越来越复杂.云计算的服务需求本来就远比购买或者财务操作流程要复杂许多,它带着强烈的技术属性,每个客户使用云产品

阿里云承建国家级工业云平台 目标服务10万家制造企业

近日,在国家工业和信息化部组织召开的全国云计算工作交流会上,国家工业智能公共服务云平台(下称"国家工智云平台")正式签约启动,以进一步加快落实<云计算发展三年行动计划(2017-2019年)>,推动我国工业互联网云平台的发展. "国家工智云平台"由阿里云计算有限公司(简称"阿里云").中国电子信息产业发展研究院(简称"工信部赛迪研究院").工业和信息化部电子第五研究所(简称"中国赛宝")共同发起

从IaaS到AI,马云为何让阿里云去扛人工智能大旗?

免费开通大数据服务:https://www.aliyun.com/product/odps 绝大多数人对阿里云的定位仍是国内市场最大的IaaS提供商.不过,随着国内人工智能市场在2016年迎来爆发,阿里开始在人工智能领域发力,阿里云的这一角色正在悄然转变. 布局AI领域,阿里云扛起阿里人工智能大旗 虽然阿里不是BAT三座山头中在人工智能领域的声势最旺的那个(百度躺枪),但事实上阿里从2015年也已经开始了人工智能领域的布局. 2015年6月,阿里巴巴联合富士康以145亿日元的价码战略投资软银旗下