云扩展,第1部分: 构建计算节点或小型集群应用并利用 HPC 进行扩展

根据需要利用仓库规模(warehouse-scale)计算

具有自定义扩展的处理器核心和共享的内存互联网络的外来 HPC 架构正迅速被按需集群所取代,这些集群利用了现成的一般用途向量协同处理器、融合的以太网(每个链路 40 Gbit/s 或更高速度)和多核无头(headless )服务器。这些新的按需云 HPC 资源类似于所谓的仓库规模计算(warehouse-scale computing),其中每个节点都是同类和无头的,关注的是总体拥有成本和总体电源使用效率。但是,HPC 拥有解决超出类似社交网络、Web 搜索和其他典型的仓库规模计算解决方案所需要的处理能力。本文将重点介绍系统构建者和 HPC 应用程序开发人员如何最高效地扩展您的系统和应用程序。

迁移到高性能计算

自 1994 年以来,TOP500 和 Green500 超级计算机通常不是定制设计的,而是使用现成的无头服务器、融合的以太网(或 InfiniBand 集群)和通用的图形处理单元 (GP-GPU) 协处理器来设计和集成,这些 GPU 不是用于图形处理,而是用于单程序、多数据 (SPMD) 工作负载。高性能计算 (HPC) 偏离了外来定制处理器和内存互联设计方向,有朝着利用现有设备(仓库规模计算)发展的趋势(基于控制总体拥有成本,提高功率效率,以及平衡新建和既定 HPC 操作的操作开支 (OpEx) 和资本开支 (CapEx) 的需求)。这意味着,您可以使用类似的方法构建自己的小型集群,在需要 HPC 仓库规模资源时根据需要使用它们。

Cray 等计算机使用的著名的 3D 环形互联从未完全消失(如今,TOP500 中 1/3 采用大规模并行处理器 [MPP],2/3 的高性能机器采用集群架构),但对效率和新 OpEx 指标(比如 Green500 Floating Point Operation (FLOP)/Watt)的关注正在推动 HPC 的发展和保持架构持续关注集群计算架构。而且,如今许多有趣的应用程序都是数据驱动的(例如数字视频分析),所以许多系统不仅需要对 HPC 检查点(长期运行的作业的保存状态)使用传统的顺序高性能存储,还需要随机访问结构化(数据库)和非结构化(文件)的大型数据集。大数据访问是用于云服务的传统仓库规模计算以及当前和新兴的 HPC 工作负载的一种常见需求。所以,仓库规模计算不是 HPC,但 HPC 应用程序可利用受数据中心启发的技术来实现按需云 HPC,前提是它从一开始就是这么设计的。

计算功率

计算功率可采用标准的每瓦特性能形式来度量 — 例如,FLOPS/Watt 或分别用于计算和 I/O 的每秒/瓦特输入/输出。而且,任何计算设备都可视为一个将瓦特转换为计算结果的工厂,对优秀的工厂设计的总测量用的是功率使用效率 (PUE),简言之,就是总能耗中提供给计算设备的比率。如今,该值不超过 1.2 就很不错了。导致 PUE 较高的一个原因是:低效的制冷方法,管理开销,以及与云数据中心相比缺乏定制的设备。

可扩展计算架构的关注点总在不断变化,这些变化包括:

早期注重使用一种快速单处理器,将存储程序算术逻辑的单元中央处理器提高到最高的时钟速率和指令吞吐量:

John von Neumann、Alan Turing、Robert Noyce(Intel 的创始人)、Ted Hoff(Intel 通用处理器拥护者)和 Gordon Moore,将最初的扩展视为尽可能块地扩展数字逻辑和处理器时钟的一大挑战。

至少直到 1984 年(可能更晚),人们通常认为 “处理器造就了计算机”。

Cray Computer 设计了矢量计算机(X-MP 和 Y-MP)和分布式内存多处理器,这些多处理器由一个用于定制的 MPP 机器的 6 向互联 3D 环来建立互联。但这是超级计算领域中独特的设计。

IBM 早期的关注点是可扩展大型机和快速的单处理器,直到 1999 年发布了多核 IBM POWER 架构板载系统设计和一种 3D 环形互联的 IBM Blue Gene 架构。当前的 TOP500 包含许多 Blue Gene 系统,这些系统常常在 LINPACK 度量的 TOP500 中拔得头筹。

从 1994 年直至最近,HPC 不断演化,发展成为一些定制的 MPP 和通常现成的集群,使用定制的互联(比如 Blue Gene 和 Cray)以及现成的融合以太网(10G、40G)和 InfiniBand:

TOP500 已被集群统治,这包括如今的大多数顶级性能的 HPC 解决方案(2/3)。

如 1994 年以来的架构 TOP500 图表中所示,集群和 MPP 如今占据着统治地位(相对于单指令、多数据 [SIMD] 矢量;快速单处理器;对称多处理 [SMP] 共享内存;以及其他不太清晰的架构)。

Sun Microsystems(现在为 Oracle)中的 John Gage 表明 “网络就是计算机”,它指的是分布式系统和互联网,但同样地,集群中的低延迟网络正变成扩展的核心。

通过内存映射 I/O 连接到集群节点的协处理器,包括 GP-GPU 以及混合现场可编程门阵列 (FPGA) 处理器,被用于加速每个集群节点上特定的计算工作负载。

仓库规模计算和云开始出现,它们关注的是 MapReduce 和 HPC 所称的高度并行的应用程序 (embarrassingly parallel applications):

TOP500 使用 LINPACK 和 FLOP 来度量,所以不关注操作成本(例如 FLOP/Watt)或数据访问。内存访问非常重要,而存储访问没有这么重要,除了对于作业检查点(所以如果需要,可重新启动一个作业)。

在新的世纪中出现了许多数据驱动查询应用,包括社交网络、互联网搜索、全球地理信息系统,以及与多于 10 个互联网用户相关联的分析。这不是传统意义上的 HPC,而是大规模的仓库计算操作。

Luiz André Barroso 表明 “数据中心就是计算机”,这是第二次远离注重处理器。数据中心高度关注 OpEx 和 CapEx,所以更适合 FLOP/Watt 和数据访问至关重要的 HPC。Google 数据中心拥有低于 1.2 的 PUE,PUE 是一种将消耗的总能耗除以用于计算的功率的度量指标。(大部分计算性企业都拥有 2.0 或更高的 PUE,所以 1.2 确实非常低。)

查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Servers/cloud-computing/

时间: 2024-08-12 06:02:20

云扩展,第1部分: 构建计算节点或小型集群应用并利用 HPC 进行扩展的相关文章

构建小型集群根据需要利用仓库规模(warehouse-scale)计算

该方法允许架构师在本地完成构建,以便提供预期的工作负载,并溢出到按需云 HPC 来应对峰值负载.第 1 部分重点介绍系统构建者和 HPC 应用程序开发人员如何最高效地扩展您的系统和应用程序. 具有自定义扩展的处理器核心和共享的内存互联网络的外来 HPC 架构正迅速被按需集群所取代,这些集群利用了现成的一般用途向量协同处理器.融合的以太网(每个链路 40 Gbit/s 或更高速度)和多核无头(headless )服务器.这些新的按需云 HPC 资源类似于所谓的仓库规模计算(warehouse-sc

加快构建珠三角蜂窝物联网产业集群

以物联网.大数据为代表的信息通信技术正成为传统产业转型升级的重要新动能.今年全国"两会"期间,全国人大代表.中国移动广东公司总经理简勤提出了<关于加快构建珠三角蜂窝物联网产业集群的建议>,建议大力发展物联网产业,加快构建珠三角蜂窝物联网产业集群,深化物联网与产业的融合发展,培育壮大经济发展新动能,推动广东智能制造业发展,助力供给侧结构性改革. 广东作为制造业大省,从"传统制造业"到"智能制造业"的转型空间巨大.广东省"十三五

rac-ORACLE 11g 10个节点的RAC集群,一个节点无网络心跳,由哪一个节点负责FENCE它

问题描述 ORACLE 11g 10个节点的RAC集群,一个节点无网络心跳,由哪一个节点负责FENCE它 各位大神,ORACLE 11g 10个节点的RAC集群,一个节点无网络心跳,由哪一个节点负责FENCE它

完全分布模式hadoop集群安装配置之二 添加新节点组成分布式集群

前文说到如何搭建集群中第一个节点,这篇将说到如何向集群添加节点.这篇是基于前文的,没有看过前文的可以参考此链接:http://www.cnblogs.com/mikelij/archive/2012/03/06/2380937.html   2 向集群添加节点     前文已经建立了一个节点的hadoop集群.现在要做的添加节点.安装JDK, 创建hadoop用户等见前文.这里就不重复了.   2.1 检查主机名,修改/etc/hostname, /etc/hosts   新节点需要在这个集群里

给你5000个节点的计算机集群,你最想做什么?

问题描述 亲爱的大神们:你是否体验过利用5000台服务器(物理机,不是虚拟服务器)进行大规模分布计算的超爽感觉?除非你有特殊的环境或强大的经济实力,否则对于一个开发者来说,此种机遇往往是可遇不可求的.现在,这个机会即将到来啦!阿里云为中国的开发者们提供了由5000台物理服务器组成的强大计算环境.如果你想体验此环境上做应用开发,那就赶快去参加的活动.你可以提交创意与想法,将你希望利用此环境达到的开发目的和解决方案表述清晰.符合以上条件者,我们将赠送10个CSDN下载积分,你还有机会参加后续的体验之

腾讯云定位技术开放窗口 已建成中国最大分布式计算集群

C114讯 9月17日消息(岳明)今天,2014年全球云计算大会(中国站)在召开.腾讯云计算公司总裁陈磊在会上对腾讯云平台进行了介绍,并表示腾讯云的定位是腾讯技术不断向全行业.全社会开放的一个窗口,致力于改变各个行业的IT模式. 在陈磊看来,目前互联网仍处于非常初期的阶段,未来的互联网将会像电力一样,渗透到各行各业中.而在互联网在改变行业的过程中,云计算起到了非常重要的作用."越来越多的企业使用腾讯云服务,从而快速地应对市场需求.目前腾讯云的客户群包括农业.银行.电视和电力等." 他表

【干货】构建创新型的创业服务集群

各位领导,各位嘉宾,各位校友,各位朋友上午好.我头衔比较多,因为我们要构建创业生态集群,大家把很多资源很多平台集合在一起,大家合投. 我们在三年多来,在中关村在深圳有一些经验和模式,昨天下午我跟青岛科技孵化器协会.青岛科技局的领导进行了调研和交流,对青岛的科技情况有一些了解,而且本身我基本上每一两年都到青岛来旅游一次,所以对青岛非常熟悉.下面跟大家分享一下我们的模式和经验. 前面几位专家分享了大数据的模式和潜在可能,归根到底要把它变成实际,变成产业,变成人才的价值.怎么样创业与投资? 互联网时代

5节点Hadoop分布式集群搭建经验分享

本文章我们使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA.ResourceManager+HA,并使用zookeeper来管理Hadoop集群. 1.1 写在前面的话 1.2 (一)HDFS概述 1.2.1 基础架构 1.NameNode(Master) 1)命名空间管理:命名空间支持对HDFS中的目录.文件和块做类似文件系统的创建.修改.删除.列表文件和目录等基本操作. 2)块存储管理. 1.2.2 HA架构 从上面的架构图可以看出,使用Active Nam

在Docker上建立多节点的Hadoop集群

在上篇文章中你已经看到了在你的devbox创建一个单点Hadoop 集群是多么简单. 现在我们提高门槛,在Docker上创建一个多点hadoop集群.在开始前,确保你有最新的Ambari镜像: 一行命令 一旦你得到了最新的镜像,你就可以启动Docker容器.我们已经创建了几个shell 函数来帮你输入Docker命令,从而避免输入像docker run [options] image [command]这样冗长的命令. 有了这些功能,创建3个节点的hadoop簇,只需要下面一行代码搞定: 默认参