解读云集群下的高性能计算

云计算最初是聚焦于为参与系统提高进应用架构,但在高性能计算方面却提供不了什么。现在,领先的云提供商正在对自己的产品及相关基础设施进行重构,以便让计算密集型应用具备实用性和成本效率。

传统上,云在架构上被设计为与Dropbox之类的存储、Gmail、iTunes以及Evernote等应用结合的服务交付。“集群的架构则是为了暴露存储以外的资源,比方说,那些需要在定制化网络执行供应商提供或用户开发的应用,” Bright Computing的CEO Matthijs Van Leeuwen说。

跟运行在专门硬件上的传统集群很像的是,基于云的集群出于某种目的也包含了独特的分布式资源的整合。这种云包括为能感知集群的数据库管理系统(DBMS)、高性能计算(HPC)或大数据分析应用提供平台。像Amazon、Rackspace这样的公有云提供商会把可用于在其云基础设施上开发集群的预定义资源实例暴露出来。

OpenStack允许组织定义自己的资源实例,然后用这些实例来在自己的私有云开发集群。物理服务器或者利用物理服务器上的超级管理程序的虚拟机器(VM)通常都是处在专门的本地集群里面的。对于开发者来说,关键的不同是云和专门集群之间的资源实例抽象有所不同。

集群常用情况

Leeuwen说云集群可用于替代或补充专门资源。对于专门硬件最小化的应用,如笔记本,云可用于集群的实例化、使用以及去实例化。在这一用例中,笔记本不再是一台访问基于云的集群的最终用户设备。它并不提供任何被用于执行计算或打造网络的实例化资源。

在第二种常见的用例中,基于云的资源可被用来作为专门资源的补充。这种情况下,本地资源通过哪些云资源的云爆发过程得到扩展。基于云的资源只需像专门资源一样被实例化、使用然后去实例化。本地与云端资源的区别对于最终用户以及许多类型的应用来说可以是透明的。

这两种情况都可以应用到公有云或者私有云上。组织可以将自己的应用架设来直接做这件事情,或者利用像Bright Cluster Manager之类的工具,在AWS或OpenStack私有云建立集群,从而减少前端开发和配置工作。

减少抽象的差别

开发者面临的最大挑战是提供像网络、CPU及存储等云资源与专门资源之间不同的抽象模型。云需要依赖实例化的资源。除了存储以外,基于云的CPU实例的暴露无论是公有云还是私有云产品都已经相当成熟。最新的云产品一般会伴随着针对InfiniBand网络连接、GPU加速以及自定义IP网络等特殊外部需求的服务和钩子一起提供。

任何需要经过这相同的到达路径的资源都可以暴露出来供任何类型的云内开发利用。因为集群通常利用了低时延、高带宽的内部互联结构,以及加速器和协处理器等特殊资源,在基于云的集群情况下,这些东西既代表了机遇,又会成为挑战。

组织得听凭云供应商来支持存储与计算以外资源的实例化,Leeuwen说。比如AWS,就通过Amazon VPC以及NVIDIA GPU实例支持定制的IP网络。一个好的做法是建立标准配置或利用第三方云管理来管理存储、计算、网络及加速器资源,无论它们是在本地的还是与AWS配合的。

时延是集群的关键

通信时延是建设可伸缩集群应用最大的挑战之一。好的做法是智能地为HPC筹划阶段数据。在数据端,这涉及到考虑使用更具成本效率、持久性更慢的存储服务,如AWS S3,以及利用AWS Glacier这样的归档服务,而不是更昂贵的RAM实例。

但一项甚至比这还大的网络挑战是将计算期间节点之间的通信时延最小化。在处理期间利用了消息传递的HPC应用是最容易受到瓶颈影响的。广泛利用MPI这样接口的应用将会错乱,除非开发者和运营团队确保节点之间的时延极低。

如果在集群中运行的MPI应用是封闭在私有云或者公有云范围之内的话,情况会更容易处理一些。但这个如果在运行于独立公有云或私有云的不同节点之间存在大量MPI流量的话会成为一个更大的问题。

同样的考虑也适用于在云端运行大数据分析。这对于跨本地和云基础设施之间有Hadoop分布式文件系统(HDFS)来说并没有太大意义。“不过HDFS完全位于本地或在云端的话在实践上还是工作得相当好的,” Leeuwen说。

扩充时维持性能的关键是分布式架构,敏捷云集成解决方案提供商Jitterbit的CTO Ilan Sehayek说。“让用户来选择在哪里运行API,以及在哪里运行支持该API的服务。”

还得确保所有通信都是由可伸缩的消息传递基础设施来提供的,这样才能提供API网关与服务之间快速、有保证的API请求交付。面向集群的服务也需要高效缓存技术来提供对API的快速响应,Sehayek补充道。

本文作者:boxi

来源:51CTO

时间: 2025-01-29 16:26:24

解读云集群下的高性能计算的相关文章

was集群下基于接口分布式架构和开发经验谈

   某b项目是我首次采用was环境下架构和开发的手机wap应用,尽管做到了该项目的主程,但对此项目的全面构件依然有不清楚的地方,因此在这里我只能简单的谈谈开发中遇到的问题怎么处理和应对办法.          记得第一天接触这个项目时,只记得些案例代码(不知道那些是对的,那些是错的)似曾相识,但不懂如何动手写下第一个helloword,因其中的基于接口开发的ejb的架构以前根本就没接触过.好了,没办法,于是只有硬着头皮去尝试第一个基于接口开发的ejb的第一个查询方法(呵呵最简单了吧).因为一切

大数据-hdoop集群下各hbase的数据是一样的吗?

问题描述 hdoop集群下各hbase的数据是一样的吗? 场景:要把全国31个省的数据从原来的oracle数据库导入到现在的hadoop集群,采用大数据以提高效率. 现在的环境是10台机器,Hadoop集群 问题是Hadoop集群的工作原理是怎样的?是把31个省的数据都导入每台机器的hbase还是每台机器的hbase导几个省,总共是31个省?怎么保证效率? 不懂吖 刚接触. 解决方案 10台机器的hadoop集群上配置hbase 分表空间 导入数据就可以了 都说了是集群了 所以10台用的是一份数

spring 集群下定时任务sql异常

问题描述 spring 集群下定时任务sql异常 com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'OPTION SQL_SELECT_LIMIT=5' at l

nginx反向代理-nginx+tomcat集群下的压力测试

问题描述 nginx+tomcat集群下的压力测试 我现在在单机下尝试模拟nginx+tomcat集群的配置,开了3台虚拟机,1台作nginx服务器另外两台作tomcat服务器. tomcat下的也设置了maxThreads和timeOut的值. nginx配的是将所有请求全部转发给后端的两台tomcat. 最后再装了nginx的虚拟机上用ab进行压力测试,在 -n 10000 -c 1500的时候 去测试192.168.171.134:18082没有问题,而测用127.0.0.1测nginx的

weblogic 集群 部署-weblogic 集群下部署部署 产生session无效问题,谁帮帮忙急!!!!!

问题描述 weblogic 集群下部署部署 产生session无效问题,谁帮帮忙急!!!!! <[ServletContext@1429537765[app:web11 module:web11.war path:/web11 spec-version:2.5]] Servlet failed with Exception java.lang.IllegalStateException: Session invalidation is in progress with different thr

在Hadoop集群下的智能电网数据云仓库设计

在Hadoop集群下的智能电网数据云仓库设计 郑柏恒 孟文 易东 梁晓波 针对电网数据规模大.类型多.价值密度小.变化速度快.地理位置离散的特点,为了对这些数据进行有效.可靠.低廉地存储以及快速地访问与分析,满足智能电网运行.检修.效益管理等应用的需求,提出了在Hadoop廉价PC机集群下的智能电网数据云仓库的解决方案,为挖掘海量电网数据提供有效.可靠.低廉的工具.首先分析了电网大数据的特点,再结合IEC61970标准通用信息模型的特点,基于Hadoop框架,设计出满足电网大数据处理需求的电力信

王昕解读全球视角下的中国互联网营销

让戛纳倾听,让世界读懂--王昕解读全球视角下的中国互联网营销 2009年,在全球危机阴霾中,中国经济以8.7%的增速令世人瞠目.2010年以来,中国经济继续保持回升势头,按最新的数据显示:GDP同比增长11.9%,工业增加值同比增长19.6%,社会消费品零售总额同比增长18.2%--无怪乎中国市场受到全球企业关注,而来自中国市场的实践者和观察者也成为各类国际论坛的特邀目标. 2009年,在全球危机阴霾中,中国经济以8.7%的增速令世人瞠目.2010年以来,中国经济继续保持回升势头,按最新的数据显

Hadoop集群下的并行克隆代码检测

Hadoop集群下的并行克隆代码检测 叶林   姚国祥 克隆代码会导致项目的维护困难,削弱项目的健壮性,并且克隆代码中所包含的 bug 会破坏整个项目.当前克隆代码检测技术或者拘泥于只能检测少数几种克隆代码,或者需要极高的检测时间.而且如果需要检测大量的源代码,一台机器的主存也许无法存储所有的信息.对克隆代码检测技术的并行运行进行了可能性研究,使用基于程序依赖图的克隆代码检测技术,这种技术不仅可以检测出语法上的克隆,也可以检测出语义上的克隆,提出了一个并行子图同构检测方法并使用 MapRe-du

Solr集群搭建,zookeeper集群搭建,Solr分片管理,Solr集群下的DataImport,分词配置。

1   什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud.当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使 用SolrCloud来满足这些需求. SolrCloud是基于Solr和Zookeeper的分布式搜索方案,它的主要思想是使用Zookeeper作为集群的配置信息中心. 它有几个特色功能: 1)集中式的配置信息 2)自动容