HPC怎样与云走在一起?

如今,“云计算”简单的功能,低成本的优势已经成为IT业界的热门词汇,不管是专业人士还是厂商,都希望数据中心能发生翻天地覆的变化。HPC——高性能计算,许多相关用户也都在貔虎其负载是否适合于部署在云环境中。之所以会意见不一,主要在于人们对于“究竟什么是云计算?”以及“什么样的应用算得上是HPC应用?这问题上的答案大相径庭。

HPC应用是无法“一刀切”的,我们不可能说一下子就把某类应用直接归纳到HPC应用中。 2000年初,计算机应用从集中控制的大型主机转向分布式的计算集群的时候,就完完全全的说明了这一事实。这种做法不仅将普通的商用硬件带入了HPC领域,也给客户提供了更多的选择。 HPC用户可以按照最低需求来构建HPC,从而节省投资成本。你会发现,有些 HPC系统的节点数较少,但每个处理器配备的内存较大,带宽较窄或节点之间的延时较长;而另一些 HPC系统则可能按照不同的参数要求来设计,所有这些都是针对应用需求量身定做的。
然而,对大多数企业或IT部门来说,降低成本的压力都在与日俱增,因此“按用量付费”的云计算模式也就应运而生。问题的关键是,并非所有的计算类型都适合于云架构。

Rackspace、亚马逊、Savvis以及其他一些 IaaS提供商都采用不同的虚拟化技术来管理其底层的硬件资源,遗憾的是每家厂商采用的虚拟化技术是不同的,而且有时是保密的,比如AWS EC2。因此,对HPC应用来说,究竟是采用虚拟机还是物理机就成为构建HPC云之前需要特别讨论的一个问题。

虚拟化问题

高性能计算(HPC)架构师迟迟没有采用虚拟化技术的主要原因有两个:其一是人们通常认为的虚拟化会严重影响应用程序的性能,虚拟化提升灵活性的优点被其降低了应用程序吞吐量的缺点所压倒;其二是传统的HPC基础架构的利用率已经非常高了(通常为80%~95%),因此,通常推动企业采用虚拟化的动因(提高硬件利用率、整合服务器或提高许可证利用率)不足以抵消使用虚拟化资源运行工作负载带来的复杂性和费用增加的缺点。

然而在很多情况下,HPC架构师又愿意牺牲5%的应用程序性能来获得虚拟化带来的灵活性和弹性。HPC用户愿意这样做的主要原因有以下几个:

•安全性——虚拟机可以作为实例添加到虚拟局域网中,或者从虚拟局域网中删除。一些HPC环境要求多组用户之间,甚至用户本身之间实现数据和宿主相互隔离。传统的虚拟局域网通常与物理服务器结合使用,结果造成了资源孤岛,在变化的负载环境中,孤岛将导致孤岛内资源利用率低下。虚拟机和虚拟局域网可以配合使用,把用户彼此隔离开来,并将数据隔离起来,有权访问的用户才可以访问。

•应用程序堆栈控制——很多应用程序需要特定的操作系统版本、更新版、代码库和配置等。在混合应用环境下,多个应用共享同一物理硬件,这种情况下,就很难满足所有应用对特定堆栈的要求。采用虚拟化技术,这个难题就迎刃而解了,因为,在虚拟化环境下整个堆栈可以作为应用程序的一部分来部署。

•充分利用高价值资产——在异构的HPC系统中,最新(因而最快)的机器常常需求量最大。为了满足这个需求,一些企业采用预留系统以尽量减小用户之间的冲突。但遗憾的是,这种预留系统常常没有得到充分的利用。相比之下,使用虚拟机处理计算作业时,大多数虚拟机管理程序内部的迁移工具允许机会性工作负载使用高价值资产,甚至为一个不同的用户打开了预留窗口后也可以使用。如果提出预留要求的用户最终提交工作负载,要求处理负载,机会性工作负载随后可以迁移到价值较低的资产,以便继续处理,而不浪费任何处理器周期。

•处理执行时间长的作业——几种HPC应用程序不提供检查点重启功能。然而,虚拟机技术可以获取和检查虚拟机的整个状态,以便检查以前无法检查的应用程序设置。如果作业运行时间足够长,对于整个解决方案来说有一样的平均无故障时间(MTBF),那么虚拟机内部的检查点工具可能非常吸引人。此外,如果服务器维护是经常进行或具有可预测性,那么虚拟机内部的检查点迁移或暂停运行时间长的作业,可以防止计算时间流失,同时消除执行常规服务器维护工作所面临的任何障碍。

使用HPC云的商业理由

有几个关键因素促使企业考虑实施云计算,这些因素可以帮助企业削减成本,为内部用户提供更好的服务。这些因素是:

•按使用量付费——客户可以按照应用程序的运行时间或者按使用存储和数据传输服务的时间支付费用。

•近乎无限的基础架构——几乎可以实时享用基础架构;反过来,没有工作负载时,基础架构可以缩回到近乎零资源。

•根据工作负载配置资源——可以根据工作负载,随时分配操作系统或服务器的类型,大幅改进了资源配置方面的灵活性。

实施HPC云面临的障碍

尽管云计算有诸多优势,但是在考虑云计算是否适合HPC环境时还有很多障碍需要克服。
•安全性和知识产权——云环境中的数据对商业企业来说常常是核心的知识产权。绝不能忽视这种可能性:商业竞争对手可能使用相同的共享计算资源。从法律的角度来看,一旦发生数据泄密,知识产权保护和赔偿条款为云计算使用者带来的追索权很有限。

•软件许可——大多数商业企业使用独立软件开发商(ISV)提供的第三方软件来运行或管理HPC作业。这些应用软件在购买时都附有法律协议,明确了该应用程序可以在何处运行,通常都规定该应用程序只能在客户的场地运行。

•数据转移——除非企业完全采用云计算,弃用自己的数据中心,否则用于模拟的模和结果就必须在云计算提供商与客户数据中心之间进行传输。然而这项工作很复杂,因为就传输大容量文件而言,互联网带宽很有限;而且对大多数基础架构即服务(IaaS)提供商来说,进出云环境传输的所有数据都是按字节数计费的“收费服务”。

•定价模式——按使用量付费的模式常常对客户有很大的吸引力,但如果长期使用公共云,其费用通常比在两年内自己拥有和维护硬件的成本贵两三倍。公司应认真确定在多长时间内使用公共云比使用本地服务器更有优势。

面向HPC的云计算

HPC数据中心必须综合考虑采用云计算的商业理由及其面临的障碍,才能确定这种模式是否适合本企业以及哪种模式最适合自己。

实现HPC云需要几款工具,包括虚拟机管理程序平台、工作负载管理器和基础架构管理工具包。管理工具包应该提供策略定义及执行、配置管理、资源预留及报告等功能。虚拟机管理程序平台应该为云计算资源的虚拟部分提供良好的基础。最后,工作负载管理器应该提供作业管理功能。

对多数大型HPC环境来说,用户需要考虑采用私有云还是混合云解决方案。在混合云环境中,可以在峰值需求期间使用外部公共云,这又叫“云爆发”(cloud bursting);比较小的HPC环境可能应该考虑公共云,使用的所有资源都在云端。不管使用哪一种模式的云,特别重要的是确保基础架构包含可以同时充分利用物理资源和虚拟资源的管理层,因为HPC应用程序仍主要放置在物理机器上。在理想情况下,该管理层应该能够把虚拟机管理程序环境和物理环境合并为一个动态共享的基础架构,既支持多种操作系统,又支持异构环境。

混合云方案对HPC环境来说可能非常有优势,因为它可以提供完成作业所需要的额外计算能力。在下列情况尤其应该考虑采用云爆发方案:
•预计作业在本地运行的等待时间过长时;
•如果作业在本地运行所需的累计运行时间过长时;
•当作业对进出云环境的数据传输要求不高时。

一旦确定了企业实施云计算的最佳方案,就可以采用多种方法来评估IaaS提供商,看看哪一家提供商最适合本企业的应用和工作负载要求。评估时要考虑的因素包括性能、可靠性、创建实例的速度、价格等,此外,还应该考虑每一家IaaS提供商的洽谈和定价流程以及政策,还要对照服务级别协议(SLA)评估可靠性。考虑上述每一个因素对于企业选择最适合其用途的提供商大有帮助。

作者介绍

Chris Porter 现任Platform公司HPC云产品经理,他在HPC和云计算领域有着丰富的经验,他曾经撰写过众多有关HPC和云计算的白皮书。

【责任编辑:小明 TEL:(010)68476606】

时间: 2024-08-01 06:00:58

HPC怎样与云走在一起?的相关文章

什么时候HPC和云走在了一起?

在我的印象中,HPC(High performance computing,高性能计算)是一个追求卓越性能的独特计算环境,想想它的应用场景,是帮助科学家和工程师们利用其超高计算能力解决复杂的科学.工程等难题,注定了是"阳春白雪"而非"下里巴人". 所以,也没认为HPC能和云计算走在一起.一是因为云计算采用的关键技术是虚拟化,这样会导致牺牲一部分性能,而高性能计算则追求"高速",两者看似相左.二是因为传统的HPC基础架构的利用率已经非常高了,云的动

阿里云走出去的底气何在?

UC总裁俞永福说过,今天,企业与企业没有永远的竞争,没有永远的合作,"竞合"是企业关系的常态.亚马逊与阿里巴巴的关系生动阐释了这点:亚马逊在天猫开的旗舰店浮出水面的这几天,阿里云在硅谷建立了首个海外数据中心,面向美国企业和正在进军北美的中国企业,提供云计算服务,它的美国对手包括Amazon AWS.微软Azure和GCE(Google Computing Engine). 阿里国际化不只是买卖交易 这只是开始,阿里云作为阿里巴巴仅次于电商和金融之外的第三大业务,顺着阿里巴巴整体国际化的

“云上超算”的愿景,阿里云高性能、异构计算抢先实现了。

最初见到"超算平民化"的概念是在2009年<纽约时报>网络版刊登的一篇文章: 当时,云计算刚刚兴起,超级计算机开始大量采用标准化硬件架构,这两个趋势让HPC通过云服务的形式来提供计算力的新模式成为可能.在当时看来,"云上超算"并不遥远,其所带来的"超算平民化"亦将带来超算发展的一场新的变革. 在近年的中国TOP100榜单中,有超过半数的超算所从事的都是互联网应用--互联网服务.大数据应用.云计算.电子商务.视频服务等等.相比过去,超算

企业级云应用平台的实践和思考

今天要讲的题目是<企业级云平台的实践和思考>, 主要涉及一些基于云环境的应用构建的技术, 讲一下我在这方面的一些实践经历和一些思考, 主要讲两个参与开发的系统的功能和设计为主,不会涉及太多细节技术. 当然,我们也可以就一些点具体讨论一下. 资源管理和应用管理 基于云的应用平台,我将它分成两类: 一块是资源管理技术, 比如私有云如OpenStack.CloudStack或者公有云技术; 还有就是资源集群管理技术, 在Docker这个技术领域,个人感觉集群技术更适用. 另一块就是应用的构建和管理技

阿里云HPC--人工智能加速利器

一. 什么是阿里云HPC 阿里云HPC是阿里云高性能计算的简称,有两重含义,一重含义是阿里云高性能计算产品,另一重含义是指阿里云高性能计算团队. 作为产品来讲,是中国第一个在公共云上推出的高性能计算的产品,也是中国首个推出公共云上的Nvidia Maxwell GPU + Intel Broadwell CPU 架构的强强组合的产品,单节点单精度计算能力超过16Tflops,初期提供物理机 + Tesla GPU加速卡形式. 推出阿里云HPC主要基于HPC用户的特点:(1)对高性能计算有永无止境

阿里云年会人机大战-技术大揭秘

引言 在上一篇文章中人工智能PK金牌速记员之实战录,我们讲述了阿里云年会人机大战背后的故事.技术Geek们可能就好奇了?现场的实时转录系统是怎么回事? 其中核心的语音识别系统到底是什么,工作原理是什么? 阿里云iDST的语音识别系统准确率为什么可以做到这么高,有什么独得之秘?本文将会将这些问题的答案一一揭晓. 人机大战之现场   阿里云年会现场,图中左边屏幕显示的是语音识别,右边屏幕显示的是人工速记 上图是视频的截图,展示的就是阿里云年会人机大战的现场情形, 阿里云的掌门人孙权在台上演讲,自动语

利用Docker和阿里云容器服务轻松搭建分布式TensorFlow训练集群(上)

本系列将利用Docker技术在阿里云HPC和容器服务上,帮助您上手TensorFlow的机器学习方案 第一篇:打造TensorFlow的实验环境 第二篇:轻松搭建TensorFlow Serving集群 第三篇:打通TensorFlow持续训练链路 第四篇:利用Neural Style的TensorFlow实现,像梵高一样作画 第五篇:轻松搭建分布式TensorFlow训练集群(上) 本文是该系列中的第五篇文章, 将为您介绍如何在本机以及HPC和阿里云容器服务上快速部署和使用分布式TensorF

使用阿里云开放搜索服务快速搭建资源搜索网站

大家好,我又来了,答应云栖论坛一周一篇文章, 由于工作太忙已中断1个多月实在抱歉,这一次写点轻松有趣的东西-快速的做个资源搜索站 依稀记得十来年前,带宽还只有2M的时候,受各个论坛启发,做了可以搜索嘿嘿嘿资源的搜索站 一晃这么多年过去,嘿嘿嘿的东西依然喜欢,但世间却变化万千 资源种类已不仅仅是X片,高清电影.纪录片.无损音乐.美剧.大型软件等等,似乎更加吸引 资源呈现方式也百花齐放,从最早的BT文件.电驴地址,到现在的磁链地址.各种云盘等等 而传统的P2P下载方式也变得格格不入,因为硬盘容量已经

黑客全军覆没 书生安全云实战各路高手

本文讲的是黑客全军覆没 书生安全云实战各路高手,武术之道讲究形神兼备,内外合一.然世间习武者,多钻研外功者,却少见恒练内功之人.皆因外功一事,习之便利,所费时日既短又少,而无论所习何种内功,少则几年,多则数十年方可见效.因此,真正习武之人除各种外法之外,必兼练一.二种内家功夫以辅其不足. 以武论道,当今互联网世界同样可借古喻今.例如谷歌.Gmail用户账号被黑.icloud艳照的疯狂泄露,再到波及全球的棱镜门.斯诺登这一系列安全问题,无一不是震动四方的大事.为此,在安全事件频发的背景下,我国工业