最初见到“超算平民化”的概念是在2009年《纽约时报》网络版刊登的一篇文章:
当时,云计算刚刚兴起,超级计算机开始大量采用标准化硬件架构,这两个趋势让HPC通过云服务的形式来提供计算力的新模式成为可能。在当时看来,“云上超算”并不遥远,其所带来的“超算平民化”亦将带来超算发展的一场新的变革。
在近年的中国TOP100榜单中,有超过半数的超算所从事的都是互联网应用——互联网服务、大数据应用、云计算、电子商务、视频服务等等。相比过去,超算这个主要用于科研机构的系统已经在“平民化”上迈进了一大步。
然而,“云上超算”的愿景一直未实现,更未曾进入规模商用。其中一个主要原因在于,云是一个虚拟化环境,很多对计算力、I/O有着苛刻要求的HPC用户对此嗤之以鼻。另一个问题是,到底是应该将HPC云化,还是应当做云化的HPC?亦或者说,“云上超算”这个目标,是该由云计算厂商来实现,还是应该由超算厂商来实现?
还好,现在已经有了答案。
为何是阿里云?
9月12日,阿里云发布了弹性高性能计算平台E-HPC,这是中国首个公共云上的“HPC as a Service”产品。阿里云首先将HPC放到了云上,迈出了“云上超算”规模化商用的第一步。为何?原因有三,其一是需求驱动,其二是本钱足够,其三是基因传承。
先看需求。
在过去,高性能计算用户为了获得HPC集群计算能力,需要花费大量人力物力财力在服务器购买、运维、软件开发和软件许可上。这是一个庞大的系统工程,昂贵且周期漫长。
当然,不是所有HPC用户都有自建HPC集群的实力,过去大多数情况是用户租用超算中心的计算资源,但中国对外开放的超算中心着实不多,其中有些已经投入使用多年,计算力不足,任务作业经常需要排队,HPC用户无法获得理想的计算效率和灵活性。
所以,若能以云服务的模式来提供HPC的计算力,无疑能带给更多用户应用HPC的机会,大大拓宽HPC的应用范围,进一步推进HPC的平民化进程。
再看本钱。
在E-HPC发布当天,阿里云还发布了新的异构计算实例家族,涵盖GPU、FPGA在内等6款异构实例,这为“云上超算”的构建打下了雄厚的异构计算基础。此外,阿里云还具备丰富的弹性计算ECS资源、虚拟专用网VPC、高性能高可靠和横向扩展的NAS资源、HPC软件栈等资源。综合来看,对于构建“云上超算”,阿里云已经有了足够的技术和产品资本。
还有基因。
阿里云曾经在多个场合、不止一次的强调“使能”这个词。就如阿里云近年来不断升级ECS家族,其目标是为了“使能”更多的企业客户,让客户和阿里云ECS一同成长壮大。而阿里云推出弹性高性能计算平台E-HPC,其目的是降低HPC应用门槛,让更多的用户能够应用HPC,和阿里云的“使能”基因一脉相承。
对于E-HPC,阿里云资深专家何万青博士做了一个形象的比喻:如果把传统超算中心比作“珠穆朗玛峰”,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,是高性能计算的“青藏高原”。“我们既需要‘珠穆朗玛峰’,也要让更多的人在‘青藏高原’上做创新。”
所以,阿里云在首先推出“云上超算”这件事儿上,可谓万事俱备,东风亦至。
轻轻一点,生成“云上超算”
据何万青博士介绍,E-HPC基于阿里云异构计算平台在高性能虚拟化、并行计算、低延迟网络和HPC软件栈等方面的特性,帮助生命科学,气象预报,石油勘探,工业设计和航空航天等领域的客户,快速获得高性能计算集群计算能力、调度能力和软件能力,按需组建自己的“云上超算中心”,并可实现一键部署和弹性伸缩。
E-HPC有着四大特点:便捷、互通、弹性、安全。
在发布会现场,何万青博士现场演示了“云上超算”的搭建过程——只需三步:硬件配置、软件配置、基础配置,即可生成一套用户专属的HPC集群,时间不过几分钟。“你不用了解超级计算机是怎么设计的,只要点几下鼠标,然后得到的就是超级计算机。”
用户从E-HPC不仅能够获得并行计算能力,还能获得常用的开发工具、性能库和常用的HPC应用。如gcc、g++、gfortran等基础软件,NetCDF、MPICH、OopenMPI、OpenBLAS等高性能运行时库,以及计算化学、气候气象、生命科学、材料力学、分子动力学等领域行业软件,用户登录E-HPC直接可用。E-HPC本身作为一个PaaS平台,所有的资源随着阿里云的产品丰富是不断的往上迭代的,E-HPC会随着产品的不断丰富而进化。未来阿里云会联合行业合作伙伴打造行业解决方案交付给用户,让E-HPC实现平台化,不断扩大“云上超算”的应用生态。
在弹性方面,E-HPC用户不仅可以根据需求自动增减节点,还能将本地HPC集群通过虚拟局域网专线接入E-HPC,通过一种混合云的方式来扩充计算能力,这种灵活性是传统HPC集群无法实现的。
而在安全方面,E-HPC采用了多项安全设计来保证安全访问和数据可靠性。例如,E-HPC采用了安全组访问控制,并提供了VPC专有网络,通过管控空间和用户空间分离,保证多租户间数据安全隔离;同时E-HPC的NAS平台提供了10个9的数据可靠性。
10月12日,E-HPC将在全球同步上线,未来整个HPC产业是否会出现新的变局?非常值得期待。
异构计算能力再升级
阿里云新推出E-HPC、构建“云上超算”,实际上是阿里云异构计算在HPC领域的一次全新实践。9月12日,除了发布E-HPC,阿里云还发布了新一代GPU实例GN5i和新一代FPGA计算实例F2。
至此,阿里云异构计算家族已经包括GPU、FPGA在内的6款异构实例,已经能够满足图形渲染、人工智能和高性能计算等领域的复杂计算需求,阿里云异构计算能力再度升级。
阿里云异构计算家族已经全面覆盖GPU和FPGA实例。GPU方面包括AMD和NVIDIA实例,FPGA方面包含Intel和赛灵思实例,6款异构计算实例能够全面覆盖图形图像、机器学习、科学计算等异构计算应用场景。
GA1:今年1月推出,专为图形渲染计算而设计的实例,提供最高4颗AMD S7150 GPU的配置,最高达到15TFLOPS浮点计算能力,其亮点在于兼容OpenGL DirectX等主流图形渲染API,同时支持GPU分片虚拟化,从而达到成本和计算力的平衡。在大部分视觉渲染计算中,GA1能够将成本降低 50%。
GN4:也是在今年1月推出的GPU异构计算实例。单实例最大提供了2颗 NVIDIA M40 GPU,达到14 TFLOPS 单精度浮点运算处理能力。适用于机器学习、流体力学计算、基因组学、地震分析、分子建模、金融计算以及其他需要强大并行浮点计算能力的服务器端业务场景。
GN5:今年6月推出,面向深度学习和高性能计算的实例,具有强大计算力。最高支持8颗NVIDIA P100 GPU,浮点运算最高75TFLOPS。相比上一代的异构实例GN4,GN5的双精度浮点性能提升了94倍(适用于科学计算),单精度浮点性能提升5.4倍(适用于深度学习),兼容TensorFlow、Caffe等主流深度学习框架。
GN5i:阿里云新发布的异构实例,主要适用于深度学习的在线推理(Inference)阶段。配置NVIDIA P4 GPU,INT8 整型计算能⼒达45TFLOPS,可一键部署TensorFlow等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务。人工智能产业用户可通过GN5i搭建微秒级响应的AI服务,在线服务成本减少50%以上。
除了GPU实例,阿里云也将目光投向了不断升温的FPGA。阿里云高级技术专家龙欣表示,GPU本身的数据位宽是固定的,相比GPU,FPGA更适合非标数据位宽的深度学习、金融分析、基因匹配、物联网数据库等领域。FPGA就像专用计算中的多面手,堪称搭建任意数字器件的“云上积木”。
F1:是今年1月阿里云推出的首款FPGA异构计算实例,现已全面升级。采用Intel A10芯片,单块FPGA配有16GB DDR4内存,专用 PCI-Express x8 接口,具有近1518个DSP引擎,近115万个逻辑元素,单精度浮点计算最1.5TFLOPS、INT8整数运算最高4.8TOPS。升级后的F1实例提供了开发组件的全面支持,增强了安全保护机制,并从原来的只能支持RTL的开发升级为支持RLT和openCL的开发。
F2:新发布的FPGA异构计算实例,基于Xilinx(赛灵思)硬件可编程芯片打造,具有145万个逻辑单元,5520个DSP引擎,16GB 4通道内存,单精度浮点计算最高1.5TFLOPS,INT8整数运算最高5.25TOPS。F2实例可在云上实现FPGA加速业务的快速研发、安全分发、一键部署和弹性伸缩,为人工智能产业提供加速服务,在特定场景下的处理效率比CPU高30倍。
相对GPU,FPGA开发有着更高的门槛。为简化用户使用FPGA、分发FPGA、部署FPGA、运维FPGA的业务流程,阿里云还推出了FPGA镜像市场,在云上提供了在线的开发模拟调试的环境,厂商和用户可以在市场上分发、部署定制化加速算法,阿里云的安全能力为镜像保驾护航。目前,已有数十家厂商正在进驻。“这是阿里云构建FPGA生态的重要一环”,龙欣表示。
凭借这六款异构计算实例,阿里云已经能够覆盖大部分的异构计算场景,但对于云上的异构计算服务来说,仅有丰富的实例还不够。阿里云异构计算负责人张献涛表示,要在云上提供异构计算服务,除了异构计算实例外,业务永续、高性能、性价比、弹性,缺一不可。
从去年开始,阿里云整个基础设施层面全面升级,IDC可以达到5个9的可用性,让客户业务永续;为支持客户业务的全球化的部署,阿里云在全球部署了一张高可用的骨干网,通过多线的BGB接入保障网络不中断,同时让客户的业务全球互联互通。在软件服务层,阿里云网络虚拟化也已经升级到第二代,适应了25Gb网络,能够支撑阿里云业务在网络方面获得极高的PPS和带宽。
张献涛表示,阿里云在海外已经部署了多个数据中心,美国、澳洲、德国、新加坡,异构计算服务也随着IDC的全球化部署覆盖到全球;在国内,华为、华南、华东、香港数据中心也做了异构计算服务的部署,阿里云希望从计算服务、引擎、平台、服务、场景解决方案、生态等方面,全方位“使能”用户。
打开未来的大门,异构计算与高性能计算,是打开未来的两把钥匙。
第四次工业革命正在到来,这次革命将以大数据为核心,以人工智能为代表;而在即将到来的智能社会,高性能计算与人类生活的关系也将更加密切,从天气气象、生物制药、基因工程、航空航天等科研领域到新兴的深度学习和人工智能,高性能计算都将扮演关键角色。
不管是人工智能,还是高性能计算,都需要强大的计算力作为支撑,而异构计算则是提升计算力最为可行的途径。不难预见,未来异构计算将覆盖更多的应用和更多的行业,也将有越来越多的用户需要异构计算——这势必将掀起一轮异构计算平民化的新浪潮,而云计算则是成就这次变革的基石。
打造全面的云上异构计算服务、首推“云上超算”E-HPC,阿里云可谓是已经找到了这两把通往未来的钥匙。
来自it圈儿里人的精彩分享。了解更多,可以查看:text