世界顶级的数据密集型处理系统揭秘

前不久在德国举行的国际超级计算大会(ISC)宣布了世界顶级的数据密集型处理系统。科学技术计算应用领域处理大数据问题的顶级超级计算机榜单名为Graph 500,每年更新两次;一次是在ISC,另一次是在一年一度的超级计算大会(Supercomputing Conference),2012年这届大会于盐湖城举行。

这份榜单始于2010年的ISC,对应于注重处理速度这个结果的Top500。Graph 500基准测试评估计算机在处理数据密集型分析应用时的性能,并且评估计算机的通信功能和计算性能。

这一挑战赛的名称来源于它所解决的问题的根源,名为“图形类”运算——这些算法是许多应用中分析工作负载的核心部分,比如网络安全、医疗信息学和数据强化等应用。

按照Graph 500小组(该小组得到了世界各地50余位高性能计算专家的支持)的官员说法,数据密集型超级计算机应用对高性能计算工作负载来说越来越重要,但是不适合为3D物理模拟而设计的平台。

他们声称,“目前的基准测试和性能指标无法提供关于超级计算系统适合数据密集型应用情况的有用信息。为了指导厂商设计旨在支持这类应用、帮助采购的硬件架构和软件系统,就需要一套新的基准测试。图形算法是许多分析工作负载的一个核心部分。”

由于起源于高性能计算领域,又与Top500榜单有着关系,Graph 500榜单上的系统并非企业系统,与注重性能的Top 500榜单有几个相似之处,因为设计时注重速度的许多超级计算机也具有相当强大的一些图形处理功能。

两款数据密集型系统并列第一,绝对遥遥领先于榜单上的其他系统。虽然Graph 500仍处于初期阶段(与历史悠久的Top500榜单相比),但我们预计更多的团队会提交系统,以便拿仍在完善中的Graph 500基准测试进行对照。

不妨先介绍两款顶级系统,它们在争夺世界上功能最强大的数据密集型系统这个头衔中打成平手。

第一名:米拉(阿尔贡国家实验室)

 

除了在今年的Top500超级计算机榜单上名列第三外,米拉(Mira)超级计算机还在Graph 500夺得头把交椅。

Graph 500的目的是想看看超级计算机能够为密集线性代数(计算密集型浮点)运算提供多高的性能。阿尔贡国家实验室称,米拉主要是为了为这类运算提供超高性能而设计的,因为这类运算与科学和工程应用高度关联。

计算机经常用来解决小的图形问题(比如说,为运货卡车车队规划最佳路线)。然而,图形问题会变得非常棘手,因为它们会扩展到更庞大的数据集(设想一下估计气候对小地区内城市经济的影响和评估气候对全国城市经济的影响之间的区别)。

管理阿尔贡领导力计算中心应用性能工程团队的Kalyan Kumaran说:“要是有在这几种运算方面性能超群的超级计算机,那么这一类非常有用的计算技术就可以运用到更广泛的领域。米拉所能处理的问题类型要比大规模科学模拟广泛得多。”

IBM蓝色基因/Q系统位于阿尔贡领导力计算中心(ACLF),它每秒能够处理1016次运算。阿尔贡国家实验室称,其目的是一旦完全投入运行,让米拉每年能够处理50多亿个计算小时。

Vesta是米拉的测试和开发系统,它在Graph 500榜单上名列第6。米拉在阿尔贡国家实验室的前身:IBM蓝色基因/P则排名第16。

并列第一名:红杉(劳伦斯利物莫尔国家实验室)

近期关于红杉(Sequoia)的重大新闻是它如今是世界上速度最快的超级计算机,在Top500榜单上力压群雄。然而,劳伦斯利物莫尔国家实验室强调,该超级计算机不仅仅是为了追求速度而制造的,还是为处理实际环境的数据密集型应用而制造的。

米拉位于阿尔贡领导力计算中心(ALCF),而红杉位于劳伦斯利物莫尔国家实验室,各自都达到了超过3500 GTEPS的分数。GTEPS指每秒访问的10亿边缘。

劳伦斯利物莫尔国家实验室有多款超级计算机入围今年的Graph500榜单,包括使用固态硬盘存储阵列来保存图形的几款超级计算机。利维坦(Leviathan)这款系统有一个含40核心的节点、1TB内存和12TB闪存,它是该实验室的另一款明星级大数据超级计算机。

美国核安全局管理员Thomas D’Agostino告诉劳伦斯利物莫尔Independent网站,“虽然红杉也许是速度最快的,但是它提供的底层计算功能却让我们对本国的核威慑力量更有信心,因为按照条约协议,武器储备有所改变,这是奥巴马政府核安全议程的一部分。红杉还代表了美国在高性能计算领域继续扮演领导地位,这是促进高质量工作和经济繁荣的技术创新的关键所在。

红杉有望让研究人员更全面地认识武器性能,特别是材料在极端压力和温度下的流体动力学和特性。尤其是,该系统将让整套高度解决的不确定性量化运算能够支持延长老化武器系统寿命的工作。

第三名:与IBM开发工程部门共同设计的Darpa Trial Subset

 

系统规格和性能方面远不如另外两款系统(节点数量分别是32768个和区区1024个)的是与IBM开发工程部门共同设计的一款国防高级研究计划局(DARPA)系统,名列第二,仅次于两家国家实验室打成平手的两个系统。

我们无法得知这款系统的详细信息,只知道它是Power 775,这是时钟频率在3.836 GHz左右的Power7 8C。

IBM开发工程部门有许多另外的系统,提交今年Top500考虑审查,包括两款iDataPLex系统,一款名列第175位(有10128个核心),另一款名列第213位,有7248个核心。

虽然有关这款大数据系统的详细信息寥寥无几,但我们完全可以设想IBM计算机旨在快速处理数据密集型军事和国防应用。至于排名第三的那个系统,我们倒是知道有关它的一些详细信息,不过该系统位于美国境外。

第四名:Oakleaf(东京大学)

富士通的Oakleaf-FX系统位于东京大学信息技术中心,它被认为是功能最强大的数据密集型超级计算机之一。

Oakleaf-FX是富士通公司的PRIMEHPC FX10超级计算机之一,它是为峰值浮点运算性能而设计的,同时也非常注重能效,据说整个系统的功耗只有140万瓦。

东京大学现在使用这台超级计算机处理许多数据密集型科研项目,包括生物学、材料学和航空航天等众多领域的科研项目。该大学去年表示,它之所以选择这台超级计算机,是因为它与富士通公司的K超级计算机兼容,而K超级计算机在Top500榜单上名列第二。

东京大学IT中心超级计算部门主任中岛研吾博士说:“PRIMEHPC FX10超级计算机系统(Oakleaf-FX)将有助于促进学术界和工业界的用户在各种类型的研究开发工作中取得进展。Oakleaf-FX将用于东京大学研究生院的高性能计算教育计划,旨在培养未来的计算科学家。Oakleaf-FX的性质决定了它的优先事项将放在大规模任务上。”

东京大学还拥有Graph 500榜单上的第四名:在东京工业大学全球科学信息计算中心有一个惠普集群平台。这个系统是一台性能强劲的数据处理系统,得益于1366个节点中每个节点都有三块英伟达特斯拉(Tesla)卡的配置。

想了解榜单的更多信息,包括前十强——包括位于阿尔贡国家实验室、布鲁克黑文国家实验室和劳伦斯伯克利国家实验室的更多“蓝色基因”和超级计算机,不妨浏览主榜单

时间: 2024-10-27 04:03:38

世界顶级的数据密集型处理系统揭秘的相关文章

双11前、中、后三阶段大数据计算平台全揭秘

以下内容根据在线分享和幻灯片整理而成. 双11备战 双11的成功离不开背后大数据分析,阿里云大数据平台在双11承担了海量数据分析服务,各个部门会在计算平台上对于相关数据进行深入分析从而保障双11成功进行:通过对物流包裹预测,帮助快递公司调配仓储,使得其在双11当天能够分发6.5亿件包裹,做到兵马未动.粮草先行:对花呗授信额度进行评估,将花呗额度按照每个人风险承受额度进行相应的调整:帮助商家精准营销,对访客分群预测,设计个性化店铺首页:对消费者进行智能导购,通过分析其原始购买记录,对其进行精准化营

戴尔推出针对数据密集型工作负载新解决方案

中国北京, 2013年8月13日--戴尔近日宣布推出新的存储解决方案和扩展的最新功能,旨在帮助企业提高IT性能.支持数据洞察并降低总体成本. 由于数据大规模增长,很多企业转而采用针对性能和数据密集型工作负载优化的IT系统,例如需要分析客户和业务数据以获得有助于实现企业目标的深入见解.事实上, IDC预测,预计到2016年,全球大数据技术和服务市场的年复合增长率将达到31.7%,年收入将达到238亿美元.针对大数据部署的基础架构技术预计增长最快,存储市场的增长速度预计将达到最高的53.4% 2.

戴尔推出针对数据密集型工作负载存储方案

    戴尔近日宣布推出新的存储解决方案和扩展的最新功能,旨在帮助企业提高IT性能.支持数据洞察并降低总体成本.   由于数据大规模增长,很多企业转而采用针对性能和数据密集型工作负载优化的IT系统,例如需要分析客户和业务数据以获得有助于实现企业目标的深入见解.事实上, IDC预测,预计到2016年,全球大数据技术和服务市场的年复合增长率将达到31.7%,年收入将达到238亿美元.针对大数据部署的基础架构技术预计增长最快,存储市场的增长速度预计将达到最高的53.4% .   戴尔优化可扩展的存储平

数据经济:系统创新的催化剂

数据经济:系统创新的催化剂 IBM系统与科技部新兴业务总经理 黄国文 数据本身是极具价值的!但是在过去技术手段和工具有限,数据以"存"为主的背景下,一直沉睡的数据宝藏,其价值并没有被真正挖掘出来.而且随着数据量的迅猛增长,存储的压力持续增加,企业已经有些不堪重负,就更无力去深究数据的价值. IBM首倡"数据经济",就是在提醒人们重新认识数据的价值所在.企业如果能够善用数据,就能为企业创造新的财富.随着IT架构的变革.业务模式的转变,数据也会从成本中心慢慢转变为价值和

为超融合架构选择合适的数据中心冷却系统

虽然超融合基础架构会带来很多好处,比如精简的IT管理方法,但从数据中心散热的角度来看,它也同时带来了一些特殊的挑战. 当把超融合基础架构的机器安装到机柜上的时候,会在密集的冷却环境中制造出高热量密度.保持散热通道的畅通无阻非常重要,但是要保证正常的温度下给予机器足够的散热风,还要让热量尽量远离这些机器是比较困难的. 其实对于其他IT硬件来说这个原则是一样的,但是鉴于高度融合基础架构(HCI)的密集性以及安装的简易性,你会发现要在数据中心打造一个有效率的散热系统其实是很困难的.很多数据中心在建立之

vb6 0调用access出错-vb6.0制作的安装包读取access无法读到数据,是系统哪限制了?

问题描述 vb6.0制作的安装包读取access无法读到数据,是系统哪限制了? vb制作的安装包,在别的电脑运行正常,大概50台电脑(xp系统win7系统都有)试过都没问题,只有一个xp的,安装后不能从access数据库读到数据,程序调试显示独到的非空,但是想把读到的东西输出却输出空.请问是系统是么地方限制了软件的功能,还是限制了数据库索引的功能?怎么处理,哪位高手有办法啊? 解决方案 这个很难说,一些Windows XP的系统由于是山寨盗版,精简了什么组件,或者感染了360.百度等流氓病毒,导

cpu cache 程序-[碰到一个虐心的作业]设计并运行一组数据密集型程序,推导出CPU的Cache主要参数配置

问题描述 [碰到一个虐心的作业]设计并运行一组数据密集型程序,推导出CPU的Cache主要参数配置 设计并运行一组数据密集型程序,通过分析观察到的性能变化,推导出你计算机上CPU的Cache主要参数配置 层级数 各层:容量.块大小.组相联度.命中时间.缺失代价 注意:1. 要给出分析推导的理由:2. 并不一定所有参数都可以使用这种方法推导出来 有勇士有头绪么,.,..

请问数据抓取系统(spider)怎样发现web上出现的一些链接啊?

问题描述 请问数据抓取系统(spider)怎样发现web上出现的一些链接啊? 比如网络上出现一个新的网站和域名,spider怎么样知道这个网站的链接呢? 解决方案 访问html,其中包含<a href=地址>标记,它们就是链接.对html解析就可以得到.

图 系统-如何掌握大数据图处理系统

问题描述 如何掌握大数据图处理系统 对于现有的大数据处理系统,比如graphlab,powergraph等,如何较好的理解掌握他们,并能够自己亲自使用得出他们的优缺点,而不是看论文等来了解?他们有没有类似于Hadoop那样系统全面的书,或者源代码分析? 解决方案 http://yuedu.baidu.com/ebook/68e3713e0912a21614792982.html