“云上超算”的愿景,阿里云高性能、异构计算抢先实现了。

最初见到“超算平民化”的概念是在2009年《纽约时报》网络版刊登的一篇文章:
当时,云计算刚刚兴起,超级计算机开始大量采用标准化硬件架构,这两个趋势让HPC通过云服务的形式来提供计算力的新模式成为可能。在当时看来,“云上超算”并不遥远,其所带来的“超算平民化”亦将带来超算发展的一场新的变革。
在近年的中国TOP100榜单中,有超过半数的超算所从事的都是互联网应用——互联网服务、大数据应用、云计算、电子商务、视频服务等等。相比过去,超算这个主要用于科研机构的系统已经在“平民化”上迈进了一大步。

然而,“云上超算”的愿景一直未实现,更未曾进入规模商用。其中一个主要原因在于,云是一个虚拟化环境,很多对计算力、I/O有着苛刻要求的HPC用户对此嗤之以鼻。另一个问题是,到底是应该将HPC云化,还是应当做云化的HPC?亦或者说,“云上超算”这个目标,是该由云计算厂商来实现,还是应该由超算厂商来实现?

还好,现在已经有了答案。
为何是阿里云?

9月12日,阿里云发布了弹性高性能计算平台E-HPC,这是中国首个公共云上的“HPC as a Service”产品。阿里云首先将HPC放到了云上,迈出了“云上超算”规模化商用的第一步。为何?原因有三,其一是需求驱动,其二是本钱足够,其三是基因传承。

先看需求。
在过去,高性能计算用户为了获得HPC集群计算能力,需要花费大量人力物力财力在服务器购买、运维、软件开发和软件许可上。这是一个庞大的系统工程,昂贵且周期漫长。

当然,不是所有HPC用户都有自建HPC集群的实力,过去大多数情况是用户租用超算中心的计算资源,但中国对外开放的超算中心着实不多,其中有些已经投入使用多年,计算力不足,任务作业经常需要排队,HPC用户无法获得理想的计算效率和灵活性。

所以,若能以云服务的模式来提供HPC的计算力,无疑能带给更多用户应用HPC的机会,大大拓宽HPC的应用范围,进一步推进HPC的平民化进程。

再看本钱。
在E-HPC发布当天,阿里云还发布了新的异构计算实例家族,涵盖GPU、FPGA在内等6款异构实例,这为“云上超算”的构建打下了雄厚的异构计算基础。此外,阿里云还具备丰富的弹性计算ECS资源、虚拟专用网VPC、高性能高可靠和横向扩展的NAS资源、HPC软件栈等资源。综合来看,对于构建“云上超算”,阿里云已经有了足够的技术和产品资本。

还有基因。
阿里云曾经在多个场合、不止一次的强调“使能”这个词。就如阿里云近年来不断升级ECS家族,其目标是为了“使能”更多的企业客户,让客户和阿里云ECS一同成长壮大。而阿里云推出弹性高性能计算平台E-HPC,其目的是降低HPC应用门槛,让更多的用户能够应用HPC,和阿里云的“使能”基因一脉相承。

对于E-HPC,阿里云资深专家何万青博士做了一个形象的比喻:如果把传统超算中心比作“珠穆朗玛峰”,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,是高性能计算的“青藏高原”。“我们既需要‘珠穆朗玛峰’,也要让更多的人在‘青藏高原’上做创新。”

所以,阿里云在首先推出“云上超算”这件事儿上,可谓万事俱备,东风亦至。

轻轻一点,生成“云上超算”
据何万青博士介绍,E-HPC基于阿里云异构计算平台在高性能虚拟化、并行计算、低延迟网络和HPC软件栈等方面的特性,帮助生命科学,气象预报,石油勘探,工业设计和航空航天等领域的客户,快速获得高性能计算集群计算能力、调度能力和软件能力,按需组建自己的“云上超算中心”,并可实现一键部署和弹性伸缩。
E-HPC有着四大特点:便捷、互通、弹性、安全。
在发布会现场,何万青博士现场演示了“云上超算”的搭建过程——只需三步:硬件配置、软件配置、基础配置,即可生成一套用户专属的HPC集群,时间不过几分钟。“你不用了解超级计算机是怎么设计的,只要点几下鼠标,然后得到的就是超级计算机。”

用户从E-HPC不仅能够获得并行计算能力,还能获得常用的开发工具、性能库和常用的HPC应用。如gcc、g++、gfortran等基础软件,NetCDF、MPICH、OopenMPI、OpenBLAS等高性能运行时库,以及计算化学、气候气象、生命科学、材料力学、分子动力学等领域行业软件,用户登录E-HPC直接可用。E-HPC本身作为一个PaaS平台,所有的资源随着阿里云的产品丰富是不断的往上迭代的,E-HPC会随着产品的不断丰富而进化。未来阿里云会联合行业合作伙伴打造行业解决方案交付给用户,让E-HPC实现平台化,不断扩大“云上超算”的应用生态。

在弹性方面,E-HPC用户不仅可以根据需求自动增减节点,还能将本地HPC集群通过虚拟局域网专线接入E-HPC,通过一种混合云的方式来扩充计算能力,这种灵活性是传统HPC集群无法实现的。

而在安全方面,E-HPC采用了多项安全设计来保证安全访问和数据可靠性。例如,E-HPC采用了安全组访问控制,并提供了VPC专有网络,通过管控空间和用户空间分离,保证多租户间数据安全隔离;同时E-HPC的NAS平台提供了10个9的数据可靠性。
10月12日,E-HPC将在全球同步上线,未来整个HPC产业是否会出现新的变局?非常值得期待。

异构计算能力再升级
阿里云新推出E-HPC、构建“云上超算”,实际上是阿里云异构计算在HPC领域的一次全新实践。9月12日,除了发布E-HPC,阿里云还发布了新一代GPU实例GN5i和新一代FPGA计算实例F2。

至此,阿里云异构计算家族已经包括GPU、FPGA在内的6款异构实例,已经能够满足图形渲染、人工智能和高性能计算等领域的复杂计算需求,阿里云异构计算能力再度升级。

阿里云异构计算家族已经全面覆盖GPU和FPGA实例。GPU方面包括AMD和NVIDIA实例,FPGA方面包含Intel和赛灵思实例,6款异构计算实例能够全面覆盖图形图像、机器学习、科学计算等异构计算应用场景。

GA1:今年1月推出,专为图形渲染计算而设计的实例,提供最高4颗AMD S7150 GPU的配置,最高达到15TFLOPS浮点计算能力,其亮点在于兼容OpenGL DirectX等主流图形渲染API,同时支持GPU分片虚拟化,从而达到成本和计算力的平衡。在大部分视觉渲染计算中,GA1能够将成本降低 50%。

GN4:也是在今年1月推出的GPU异构计算实例。单实例最大提供了2颗 NVIDIA M40 GPU,达到14 TFLOPS 单精度浮点运算处理能力。适用于机器学习、流体力学计算、基因组学、地震分析、分子建模、金融计算以及其他需要强大并行浮点计算能力的服务器端业务场景。

GN5:今年6月推出,面向深度学习和高性能计算的实例,具有强大计算力。最高支持8颗NVIDIA P100 GPU,浮点运算最高75TFLOPS。相比上一代的异构实例GN4,GN5的双精度浮点性能提升了94倍(适用于科学计算),单精度浮点性能提升5.4倍(适用于深度学习),兼容TensorFlow、Caffe等主流深度学习框架。

GN5i:阿里云新发布的异构实例,主要适用于深度学习的在线推理(Inference)阶段。配置NVIDIA P4 GPU,INT8 整型计算能⼒达45TFLOPS,可一键部署TensorFlow等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务。人工智能产业用户可通过GN5i搭建微秒级响应的AI服务,在线服务成本减少50%以上。

除了GPU实例,阿里云也将目光投向了不断升温的FPGA。阿里云高级技术专家龙欣表示,GPU本身的数据位宽是固定的,相比GPU,FPGA更适合非标数据位宽的深度学习、金融分析、基因匹配、物联网数据库等领域。FPGA就像专用计算中的多面手,堪称搭建任意数字器件的“云上积木”。

F1:是今年1月阿里云推出的首款FPGA异构计算实例,现已全面升级。采用Intel A10芯片,单块FPGA配有16GB DDR4内存,专用 PCI-Express x8 接口,具有近1518个DSP引擎,近115万个逻辑元素,单精度浮点计算最1.5TFLOPS、INT8整数运算最高4.8TOPS。升级后的F1实例提供了开发组件的全面支持,增强了安全保护机制,并从原来的只能支持RTL的开发升级为支持RLT和openCL的开发。

F2:新发布的FPGA异构计算实例,基于Xilinx(赛灵思)硬件可编程芯片打造,具有145万个逻辑单元,5520个DSP引擎,16GB 4通道内存,单精度浮点计算最高1.5TFLOPS,INT8整数运算最高5.25TOPS。F2实例可在云上实现FPGA加速业务的快速研发、安全分发、一键部署和弹性伸缩,为人工智能产业提供加速服务,在特定场景下的处理效率比CPU高30倍。

相对GPU,FPGA开发有着更高的门槛。为简化用户使用FPGA、分发FPGA、部署FPGA、运维FPGA的业务流程,阿里云还推出了FPGA镜像市场,在云上提供了在线的开发模拟调试的环境,厂商和用户可以在市场上分发、部署定制化加速算法,阿里云的安全能力为镜像保驾护航。目前,已有数十家厂商正在进驻。“这是阿里云构建FPGA生态的重要一环”,龙欣表示。

凭借这六款异构计算实例,阿里云已经能够覆盖大部分的异构计算场景,但对于云上的异构计算服务来说,仅有丰富的实例还不够。阿里云异构计算负责人张献涛表示,要在云上提供异构计算服务,除了异构计算实例外,业务永续、高性能、性价比、弹性,缺一不可。

从去年开始,阿里云整个基础设施层面全面升级,IDC可以达到5个9的可用性,让客户业务永续;为支持客户业务的全球化的部署,阿里云在全球部署了一张高可用的骨干网,通过多线的BGB接入保障网络不中断,同时让客户的业务全球互联互通。在软件服务层,阿里云网络虚拟化也已经升级到第二代,适应了25Gb网络,能够支撑阿里云业务在网络方面获得极高的PPS和带宽。

张献涛表示,阿里云在海外已经部署了多个数据中心,美国、澳洲、德国、新加坡,异构计算服务也随着IDC的全球化部署覆盖到全球;在国内,华为、华南、华东、香港数据中心也做了异构计算服务的部署,阿里云希望从计算服务、引擎、平台、服务、场景解决方案、生态等方面,全方位“使能”用户。

打开未来的大门,异构计算与高性能计算,是打开未来的两把钥匙。

第四次工业革命正在到来,这次革命将以大数据为核心,以人工智能为代表;而在即将到来的智能社会,高性能计算与人类生活的关系也将更加密切,从天气气象、生物制药、基因工程、航空航天等科研领域到新兴的深度学习和人工智能,高性能计算都将扮演关键角色。

不管是人工智能,还是高性能计算,都需要强大的计算力作为支撑,而异构计算则是提升计算力最为可行的途径。不难预见,未来异构计算将覆盖更多的应用和更多的行业,也将有越来越多的用户需要异构计算——这势必将掀起一轮异构计算平民化的新浪潮,而云计算则是成就这次变革的基石。

打造全面的云上异构计算服务、首推“云上超算”E-HPC,阿里云可谓是已经找到了这两把通往未来的钥匙。
来自it圈儿里人的精彩分享。了解更多,可以查看:text

时间: 2024-10-03 09:38:01

“云上超算”的愿景,阿里云高性能、异构计算抢先实现了。的相关文章

云上“超算中心”阿里云推出弹性高性能计算平台E-HPC

9月12日,阿里云弹性高性能计算平台E-HPC启动邀测.它可一键部署弹性伸缩的高性能计算集群环境,帮助科研院所和企业处理大规模科学计算问题,包含但不限于生命科学,气象预报,石油勘探,工业设计,流体力学,分子动力学等领域. E-HPC也是中国首个公共云上的HPC as a Service产品. 过去,高性能计算用户为了获得HPC集群计算能力,需要花费大量人力物力财力在服务器购买.运维.软件开发和软件许可上.有了E-HPC,企业就能快速获得高性能计算集群能力,高性能计算调度能力和软件能力,按需组建自

云上“超算中心” 阿里云推出弹性高性能计算平台E-HPC

9月12日,阿里云弹性高性能计算平台E-HPC启动邀测.它可一键部署弹性伸缩的高性能计算集群环境,帮助科研院所和企业处理大规模科学计算问题,包含但不限于生命科学,气象预报,石油勘探,工业设计,流体力学,分子动力学等领域. E-HPC也是中国首个公共云上的HPC as a Service产品. 过去,高性能计算用户为了获得HPC集群计算能力,需要花费大量人力物力财力在服务器购买.运维.软件开发和软件许可上.有了E-HPC,企业就能快速获得高性能计算集群能力,高性能计算调度能力和软件能力,按需组建自

阿里云高性能时序数据库 HiTSDB 启动公测,为物联网而生的数据库!

摘要:2017云栖大会·上海峰会上,阿里云发布了面向物联网场景的高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) .HiTSDB 可支持每秒1000万时序数据点写入:具备PB级别的数据存储能力,提供高效压缩算法,整体存储成本降低90%:提供时序数据插值计算,降精度计算,时间纬度聚合计算,空间纬度聚合计算的能力. HiTSDB 是一种高性能.低成本.稳定可靠的在线时序数据库服务:提供高效读写,高压缩比存储.时序数据插值及聚

阿里云何万青:搭建首个全球云上超算中心,做超算能力的普惠者

阿里云上线了新的异构计算实例和高性能计算平台,引发行业关注.这件事,把以往各国专家争相登顶的高性能计算能力"珠峰",变成普惠覆盖的"青藏高原".这个高性能计算平台背后的团队带头人.超算专家何万青,带着十几年超算生涯的积淀,用半年时间闪电开发云端超算中心,他是怎么做到的? 曾经,超算在中国可望而不可及.2005年,何万青开始在英特尔组建高性能计算团队,那时中国自己的超算还处于起步阶段,计算能力制高点始终被美国和日本垄断,大部分超算机器也是从国外买的,受到严格监管.业内

阿里巴巴路演 马云讲述史上最美好商业愿景

中介交易 SEO诊断 淘宝客 云主机 技术大厅 中美史上最大IPO正式拉开帷幕,阿里巴巴集团本周启动上市路演,向投资者推介股票,9月6日凌晨,阿里公布了每股60至66美元的IPO发行价指导区间,最高将募集243亿美元,这将创下美国IPO融资之最. 此次IPO注册总股数最大为3.68亿股,预计IPO最多可募得243亿美元.其中1.97亿股为公司增发,剩余的股份为雅虎.马云和蔡崇信三人出售的老股.根据阿里2014年第二季度的财报显示,目前总股数为23.34亿股,加上本次IPO的股份,阿里股票发行后市

“云上贵州”成全国首个国密算法应用试点项目 阿里政务云实现“国家级”安全保护

11月22日,阿里云联合国家密码管理局.贵州省密码管理局.数据通信科学技术研究所.云上贵州大数据产业发展有限公司共同宣布:"云上贵州"成为国内首个国家商用密码算法应用试点项目. 据悉,这是阿里云和贵州省在数据安全领域的首次合作.通过落实国家商用密码及密钥管理体系搭建,"云上贵州"系统平台可对数据进行更安全的管理,保证数据不丢失,不被盗用. "云上贵州"是贵州省基于阿里云飞天操作系统打造的基础平台,也是阿里云电子政务云平台的首个"省域&q

阿里云上Docker企业版之旅

阿里云上Docker企业版之旅 6月9号,Docker中国网站正式发布.在Docker中国官方镜像加速上线的同时,Docker企业版也可以从阿里云的云市场在线购买和试用了. Docker企业版基于社区版增加了面向企业的管理和安全能力,Docker企业版在国内由阿里云和Docker联合提供技术支持,为企业客户提供稳定.安全.可以信赖的容器应用平台.本文将介绍如何在阿里云上试用原汁原味的Docker企业版. 购买Docker企业版试用授权 首先访问阿里云云市场中Docker 企业版售卖页: http

直击阿里云VPC: 你要的云上安全体验全部在这里!

这几天大家比较关注VPC,这里向大家介绍下阿里云网络相关的动态.   阿里云起步于经典网络,但已全面转向VPC      大家知道,阿里云从2009年就启动了代号为"飞天"的云计算研发,致力于提供公共云计算服务.那个时候经典网络是普遍的网络类型,因此阿里云云计算系统是从经典网络起步的.为了云上租户的安全性,阿里云研发了安全组,用户通过安全组的设置,也可以做到很好的安全防护,大家有兴趣的可以点击访问.   阿里云在安全上一直持续努力,陆续又推出了访问控制(Resource Access

远程调试阿里云上的NodeJS Docker应用

云端调试 代码部署到了云上以后,如果想进行远程调试就不想本地调试那么方便了.一旦出现问题,大家会通过读日志文件的方式猜测修改.阿里云容器服务提供了集中日志输出的能力,省却了开发人员自己登录到每台机器上去读日志的痛苦.如果代码在本地运行得很好,在云上却不对,通过日志方式能够发现大部分错误. 但是,但是,总有那么一些时候,读日志不能解决所有问题,开发人员还是需要登录到云上远程调试代码. 我们今天就进行一个这样的尝试,远程调试NodeJS代码.基本思路是通过支持远程调试的IDE连接到云端进行调试.ID