计算性能当然重要,但并行文件系统才是HPC运转的基础

每六个月发布一次的HPC 500强排行榜越来越受到业界广泛关注,尤其在近几年,连续数届荣登榜首的都是中国的HPC系统。

HPC(高性能计算)话题备受瞩目,不仅因为本土系统在业界博得好评,更重要的是高性能计算逐渐走进每个人的生活,并且发挥着不可或缺的作用。比如说金融、气象、能源、制造等行业中的很多企事业都在应用高性能计算,作为普通百姓的衣食住行,我们在刷卡购物、打电话、听天气预报、出门坐车时也已经在享受高性能计算所带来的准确与方便。

谈到HPC,大家最关注的总是计算性能,却鲜有人谈到HPC的存储系统,即并行文件系统。在近期举办的一次沟通会上,中国气象局正研级高工洪文董、中国高性能计算TOP100排行榜发起人袁国兴、中国计算机学会高性能计算专业委员会秘书长张云泉几位HPC领域的专家,不约而同地就HPC领域并行文件系统的重要价值阐述了各自的观点。

并行文件系统是HPC实现资源调度和性能优化的关键因素

在高性能计算领域,尤其以气象部门为例,很多天气预报的模式都是将任务分成多个小任务,最后通过网络将其归结到一起。并行计算快速进行,而相应的数据量也随之激增,这就需要有并行文件系统进行处理。

中国计算机学会高性能计算专业委员会秘书长张云泉在沟通会上表示,在高性能计算领域,需要通过并行来实现加速,而这样的加速对于高性能计算来说,有着重大的意义。

中国气象局正研级高工洪文董说,"要实现HPC系统的科学计算的效能,就一定需要一个并行的文件系统。CPU需要通过并行文件系统将众多的存储硬件管理起来,尤其在气象领域,数据相互之间是有关联的,计算的结果之间要进行交换,这对于并行文件系统的要求就更高。"

因此,洪文董认为,一般的开源并行文件操作系统并不能满足科学计算领域HPC系统的需求,因为在科学计算领域,大多数时候文件系统存储的数据相互之间是需要相互影响的,即它们是分布共享并行文件系统,不像社会计算领域,如电信、网络、物流等,每个文件系统的数据相互之间没有关系,它们是分布并行文件系统。这两种模式对于文件系统的要求是完全不一样的。

中国高性能计算TOP100排行榜发起人袁国兴也认为,在HPC系统中,存储系统的响应速度必须要尽可能地高,同时并行文件系统也需要尽可能地高效,否则,系统产生的数据量激增,即便计算系统速度再快,如果并行文件系统无法快速响应,那么也会急剧降低HPC整体系统的性能。

并行文件系统可以把多个结点上的磁盘组织成为一个大的存储系统,提供更大的存储容量和聚集的I/O带宽,并随系统规模的扩大而扩展,在多种存储环境下发挥着重要的作用,尤其是集群结构的高性能计算领域。

同时,张云泉认为,现在大数据的发展,使得HPC的研究有了新的用武之地,产生了众多的新兴交叉学科。无论对于深度学习还是大数据分析、在线游戏而言,各种全新的应用对于HPC提出了全新的需求,这些对于HPC的存储系统,尤其是并行文件系统提出了各种挑战。

从高性能上看,GPFS即现在的IBM Spectrum Scale,通过将I/O分布在多个硬盘提高性能,能够高效工作在1个节点到4000多个节点的集群环境中,也能够很好地支持SSD盘和闪存阵列。

同时,可靠性是高性能运算的重中之重,在GPFS环境中,某一节点的硬盘连接丢失,不会影响到其他的节点,GPFS使用RSCT的功能持续监控不同文件模块的健康状态,当任 一错误被检测到时,相应的恢复动作将自动执行。GPFS还提供了额外的日志和恢复功能,可以维持元数据的一致性。最大三副本,可支持节点的自动Failover。相较于开源的CEPH,作为商用系统代表的GPFS,经历了大量的实践和检验,相对来说更加稳定和可靠。

洪文董认为,"从商用软件的角度来说,IBM的GPFS是并行文件系统中做得最成功的,也是业界做得最好的。"

IBM Spectrum Scale,以商业的可靠性满足多方高性能存储需求

软件定义存储时代,高性能计算面临着不同时代、不同品牌的存储设备和解决方案的整合的问题,IBM整合了自身所有跟存储相关的软件,推出光谱存储家族,以帮助企业和机构应对高性能计算时代出现的新问题。光谱家族的Spectrum Scale, 即广为人知的IBM并行文件系统明星产品GPFS,也就是HPC领域备受推崇的并行文件系统的商用软件,在2013年的全球top500超级计算机有超过150台的集群使用GPFS文件系统。

如同IBM软件定义解决方案的销售顾问蒋军华在沟通会上所介绍的,IBM光谱家族的Spectrum Scale,是一个为高性能计算设计的高可靠性并行文件系统,它不仅可以在一个高性能计算集群中实现多个计算节点的数据快速存取,还能够实现跨广域网的存储整合与数据共享,帮助用户形成统一的存储资源池,同时,它还解决了数据存储经济性的问题,依靠信息生命周期管理功能帮助用户实现数据的自动分层管理,保证存储资源的高效利用。这些对于高性能计算领域尤其是类似于气象预报等科学计算领域,有着非常重要的价值。

IBM Spectrum Scale是经验证、可扩展且高性能的数据及文件管理解决方案(基于 IBM General Parallel File System 或 GPFS,之前被称作代码名称 Elastic Storage)。 IBM Spectrum Scale 提供世界级的存储管理功能,具有极致的可扩展性、闪存加速性能,以及基于策略的自动存储分层功能(从闪存、磁盘到磁带)。IBM Spectrum Scale可以帮助客户减少 90% 的存储成本,同时提高云、大数据和分析环境中的安全性和管理效率。

首先,IBM Spectrum Scale解决的是数据高可靠性和高可用性。凭借去中心化的系统架构设计,GPFS文件系统元数据和数据都采用分布式架构存储,不论管理节点、文件系统节点或是元数据节点失效后都能恢复,不存在单一故障点,保证了系统的使用。随着高性能计算集群规模和文件系统的增长,元数据的访问也不会成为系统瓶颈。

其次,IBM Spectrum Scale解决的是跨广域网的存储和数据资源整合,帮助用户形成统一的全局文件命名和数据管理。比如,广州遇到南方的暴雨天气期间,由于气象预报计算需求的增加,它需要借助北京的超级计算机计算南方的天气,这其中就涉及到数据的传输和同步。通过Spectrum Scale软件全面整合后能够策略化地去定义数据存放,根据每个气象计算算例后面附带数据量的大小,结合IBM Platform LSF调度软件决定该计算任务是在本地计算还是调度到远端计算,快速获取计算结果。

最后,IBM Spectrum Scale可以在生产环境下实现磁盘空间动态扩展及压缩。由于IBM Spectrum Scale通过将节点内读写操作分布到多个磁盘上,大大增加了文件系统的带宽,通过整个系统的负载均衡避免了某个磁盘过大的读写。此外,IBM Spectrum Scale可以动态调整添加或者删除硬盘。系统处于相对空闲时,用户可以在已配置的硬盘上重新均衡文件系统以提高吞吐量。
原文发布时间为:2016年8月15日

时间: 2024-07-29 15:30:48

计算性能当然重要,但并行文件系统才是HPC运转的基础的相关文章

并行文件系统 BeeGFS 现已开源

2月23日 ThinkParQ 宣布完整的 BeeGFS 并行文件系统 的源码现已开源.由于 BeeGFS 是专为要求性能的环境开发的,所以它在开发时十分注重安装的简易性以及高度灵活性,包括融合了在存储服务器同时做计算任务时需要的设置.随着系统中的服务器以及存储设备的增加,文件系统的容量以及性能将是需求的拓展点,无论是小型集群还是多达上千个节点的企业级系统. 官方第一次声明开放 BeeGFS 的源码是在 2013 年的国际超级计算大会上发布的.这个声明是在欧洲的百亿亿次级超算项目DEEP-ER

解读访客的需求才是迎合搜索引擎的基础

一直以来我们都有疑问站点发展的源动力是什么?是排名或是盈利?在笔者看来这些都不是,答案是访客,我们可以考虑一下站点的诞生目的是为何,站点又是靠什么而不断发展壮大的,其实所有的这一切都是来自访客.而一个站点要想源源不断的获得访客的支撑那么就必须去解读访客的行为,下面我们就来谈谈如何针对访客的需求进行解读. 一.解读访客的来源,调整站点策略   访客的来源信息与站点的发展息息相关,我们在运营站点的时候第一件事情就应该是去解读访客是从哪里来的,通过后台的流量统计工具我们可以得到访客要么来自于你所发布的

什么才是真正的执政基础

What is Truly "The Ruling Foundation"? 政府出钱,建立起一个比较完备的社会保障体系,是缩短贫富差距最有效的措施. Government support to establish a well-developed system of social commonweal is the most effective measure for narrowing the gap between rich and poor. 图/CFP 财识网日前刊登罗军的文

绿萝算法之下高价值的内页优化才是网站脱颖而出的基础

针对近期的绿萝算法,笔者以自己的网站进行实践和分析认为,一个网站目前要在残酷的竞争当中胜出,独特优质的内容必不可少,笔者通过近期绿萝对于K站情况的表现,发现有些个人网站内容也并不是很多,然而排名却异常的好,这个是什么原因造成的呢? 笔者认为搜索引擎对网站的满意度占有很大一部分的决定因素,我们可以从以下几个层面进行分析,虽然个人网站的内容数量并不是多,但是很多辛勤的seoer网站上线之后,尽可能的做好基本的用户体验,为网站定时定量的更新高价值的原创文字,甚至内容相关度非常好.用户体验方面,格式.字

字体排版才是网页设计的基础

  如果网页设计依赖于字体的设计,那我们还需要学习其他的东西么?--你所需要的只是理解字体设计的各个元素. 字体设计(维基百科注解为字体排印学)当然不仅仅只是选择字体.随着@font-face技术和一些如Typekit,Webtype, Fontdeck, 以及 Google Web fonts等服务的改进,你的字体设计功力也不会提高.你可以很轻易的在你余生中只用一款字体创造出漂亮的设计--在过去设计师们也不得不这么做,那时还没有Photoshop作帮助,越多的字体只会让事情更糟糕,因为创造力和

大话存储系列14——集群文件系统

文件系统是操作系统的一个重要组成部分,通过对操作系统所管理的存储空间的抽象,向用户提供统一的.对象化的访问接口,屏蔽对物理设备的直接操作和资源管理. 根据计算环境和所提供功能的不同,文件系统可划分为四个层次,从低到高依次是: 单处理器单用户的本地文件系统,如DOS的文件系统: 多处理器单用户的本地文件系统,如OS/2的文件系统: 多处理器多用户的本地文件系统,如Unix的本地文件系统: 多处理器多用户的分布式文件系统,如Lustre文件系统. 平时大家有很多叫法:什么集群文件系统.san共享文件

Linux集群文件系统简介和集群应用的新挑战

Linux集群文件系统简介 集群文件系统在多个方面完善了 Oracle RAC 的数据库集群功能.以下是它们的对比情况.   通常,集群只是一组作为单一系统运行的服务器(PC 或者工作站).但是,这个定义的外延不断显着扩大:集群技术现在不但是一个动态领域,而且其各种应用程序正不断吸收新的特性.此外,集群文件系统技术(无论是开放源代码的还是专有的)在其功能方面正在迅速趋同. 很多人谈到集群应用程序和其中所使用的文件系统软件时,就象它们完全是一回事似的.更准确地说,大多数集群包含两个主要组件:通过快

波兰石油公司部署Panasas并行存储集群的成功案例

  概要     行业:石油和天然气 挑战:提供一种存储解决方案,即要能够满足不断增长的计算工作量对存储的需求又要不增加管理的复杂程度 方案:Panasas ActiveStor AS 3000系统,配有ActiveScale工作环境包括采用DirectFLOW协议的Panasas PanFS并行文件系统. 结果:地震资料处理工作的速度提高了6倍,提高了地球物理学家的生产效率,增加了工作的迭代次数且改善了成像结果和服务质量,提高了定位新能源储备和/或使现有油井产能最大化的成功概率.     挑战

Linux文件系统的几个性能测试软件小结

曾经测试Linux系统下的分布式集群系统的性能,使用了一些测试软件,公司让我给部门同事做一次基础培训,于是翻看以前所写的记录资料挑选了其中几个,所记之处并不完全,只记录使用的功能. 1.Iozone iozone是一个文件系统的benchmark工具,可以测试不同的操作系统中文件系统的读写性能. 可以测试 Read, write, re-read, re-write, readbackwards, read strided, fread, fwrite, random read, pread,