世界顶级的数据密集型处理系统揭秘

前不久在德国举行的国际超级计算大会（ISC）宣布了世界顶级的数据密集型处理系统。科学技术计算应用领域处理大数据问题的顶级超级计算机榜单名为Graph 500，每年更新两次；一次是在ISC，另一次是在一年一度的超级计算大会（Supercomputing Conference），2012年这届大会于盐湖城举行。

这份榜单始于2010年的ISC，对应于注重处理速度这个结果的Top500。Graph 500基准测试评估计算机在处理数据密集型分析应用时的性能，并且评估计算机的通信功能和计算性能。

这一挑战赛的名称来源于它所解决的问题的根源，名为“图形类”运算——这些算法是许多应用中分析工作负载的核心部分，比如网络安全、医疗信息学和数据强化等应用。

按照Graph 500小组（该小组得到了世界各地50余位高性能计算专家的支持）的官员说法，数据密集型超级计算机应用对高性能计算工作负载来说越来越重要，但是不适合为3D物理模拟而设计的平台。

他们声称，“目前的基准测试和性能指标无法提供关于超级计算系统适合数据密集型应用情况的有用信息。为了指导厂商设计旨在支持这类应用、帮助采购的硬件架构和软件系统，就需要一套新的基准测试。图形算法是许多分析工作负载的一个核心部分。”

由于起源于高性能计算领域，又与Top500榜单有着关系，Graph 500榜单上的系统并非企业系统，与注重性能的Top 500榜单有几个相似之处，因为设计时注重速度的许多超级计算机也具有相当强大的一些图形处理功能。

两款数据密集型系统并列第一，绝对遥遥领先于榜单上的其他系统。虽然Graph 500仍处于初期阶段（与历史悠久的Top500榜单相比），但我们预计更多的团队会提交系统，以便拿仍在完善中的Graph 500基准测试进行对照。

不妨先介绍两款顶级系统，它们在争夺世界上功能最强大的数据密集型系统这个头衔中打成平手。

第一名：米拉（阿尔贡国家实验室）

除了在今年的Top500超级计算机榜单上名列第三外，米拉（Mira）超级计算机还在Graph 500夺得头把交椅。

Graph 500的目的是想看看超级计算机能够为密集线性代数（计算密集型浮点）运算提供多高的性能。阿尔贡国家实验室称，米拉主要是为了为这类运算提供超高性能而设计的，因为这类运算与科学和工程应用高度关联。

计算机经常用来解决小的图形问题（比如说，为运货卡车车队规划最佳路线）。然而，图形问题会变得非常棘手，因为它们会扩展到更庞大的数据集（设想一下估计气候对小地区内城市经济的影响和评估气候对全国城市经济的影响之间的区别）。

管理阿尔贡领导力计算中心应用性能工程团队的Kalyan Kumaran说：“要是有在这几种运算方面性能超群的超级计算机，那么这一类非常有用的计算技术就可以运用到更广泛的领域。米拉所能处理的问题类型要比大规模科学模拟广泛得多。”

IBM蓝色基因/Q系统位于阿尔贡领导力计算中心（ACLF），它每秒能够处理1016次运算。阿尔贡国家实验室称，其目的是一旦完全投入运行，让米拉每年能够处理50多亿个计算小时。

Vesta是米拉的测试和开发系统，它在Graph 500榜单上名列第6。米拉在阿尔贡国家实验室的前身：IBM蓝色基因/P则排名第16。

并列第一名：红杉（劳伦斯利物莫尔国家实验室）

近期关于红杉（Sequoia）的重大新闻是它如今是世界上速度最快的超级计算机，在Top500榜单上力压群雄。然而，劳伦斯利物莫尔国家实验室强调，该超级计算机不仅仅是为了追求速度而制造的，还是为处理实际环境的数据密集型应用而制造的。

米拉位于阿尔贡领导力计算中心（ALCF），而红杉位于劳伦斯利物莫尔国家实验室，各自都达到了超过3500 GTEPS的分数。GTEPS指每秒访问的10亿边缘。

劳伦斯利物莫尔国家实验室有多款超级计算机入围今年的Graph500榜单，包括使用固态硬盘存储阵列来保存图形的几款超级计算机。利维坦（Leviathan）这款系统有一个含40核心的节点、1TB内存和12TB闪存，它是该实验室的另一款明星级大数据超级计算机。

美国核安全局管理员Thomas D’Agostino告诉劳伦斯利物莫尔Independent网站，“虽然红杉也许是速度最快的，但是它提供的底层计算功能却让我们对本国的核威慑力量更有信心，因为按照条约协议，武器储备有所改变，这是奥巴马政府核安全议程的一部分。红杉还代表了美国在高性能计算领域继续扮演领导地位，这是促进高质量工作和经济繁荣的技术创新的关键所在。

红杉有望让研究人员更全面地认识武器性能，特别是材料在极端压力和温度下的流体动力学和特性。尤其是，该系统将让整套高度解决的不确定性量化运算能够支持延长老化武器系统寿命的工作。

第三名：与IBM开发工程部门共同设计的Darpa Trial Subset

系统规格和性能方面远不如另外两款系统（节点数量分别是32768个和区区1024个）的是与IBM开发工程部门共同设计的一款国防高级研究计划局（DARPA）系统，名列第二，仅次于两家国家实验室打成平手的两个系统。

我们无法得知这款系统的详细信息，只知道它是Power 775，这是时钟频率在3.836 GHz左右的Power7 8C。

IBM开发工程部门有许多另外的系统，提交今年Top500考虑审查，包括两款iDataPLex系统，一款名列第175位（有10128个核心），另一款名列第213位，有7248个核心。

虽然有关这款大数据系统的详细信息寥寥无几，但我们完全可以设想IBM计算机旨在快速处理数据密集型军事和国防应用。至于排名第三的那个系统，我们倒是知道有关它的一些详细信息，不过该系统位于美国境外。

第四名：Oakleaf（东京大学）

富士通的Oakleaf-FX系统位于东京大学信息技术中心，它被认为是功能最强大的数据密集型超级计算机之一。

Oakleaf-FX是富士通公司的PRIMEHPC FX10超级计算机之一，它是为峰值浮点运算性能而设计的，同时也非常注重能效，据说整个系统的功耗只有140万瓦。

东京大学现在使用这台超级计算机处理许多数据密集型科研项目，包括生物学、材料学和航空航天等众多领域的科研项目。该大学去年表示，它之所以选择这台超级计算机，是因为它与富士通公司的K超级计算机兼容，而K超级计算机在Top500榜单上名列第二。

东京大学IT中心超级计算部门主任中岛研吾博士说：“PRIMEHPC FX10超级计算机系统（Oakleaf-FX）将有助于促进学术界和工业界的用户在各种类型的研究开发工作中取得进展。Oakleaf-FX将用于东京大学研究生院的高性能计算教育计划，旨在培养未来的计算科学家。Oakleaf-FX的性质决定了它的优先事项将放在大规模任务上。”

东京大学还拥有Graph 500榜单上的第四名：在东京工业大学全球科学信息计算中心有一个惠普集群平台。这个系统是一台性能强劲的数据处理系统，得益于1366个节点中每个节点都有三块英伟达特斯拉（Tesla）卡的配置。

想了解榜单的更多信息，包括前十强——包括位于阿尔贡国家实验室、布鲁克黑文国家实验室和劳伦斯伯克利国家实验室的更多“蓝色基因”和超级计算机，不妨浏览主榜单

时间： 2024-12-31 20:08:15

世界顶级的数据密集型处理系统揭秘

世界顶级的数据密集型处理系统揭秘的相关文章

双11前、中、后三阶段大数据计算平台全揭秘

戴尔推出针对数据密集型工作负载新解决方案

戴尔推出针对数据密集型工作负载存储方案

数据经济：系统创新的催化剂

为超融合架构选择合适的数据中心冷却系统

vb6 0调用access出错-vb6.0制作的安装包读取access无法读到数据，是系统哪限制了？

cpu cache 程序-[碰到一个虐心的作业]设计并运行一组数据密集型程序，推导出CPU的Cache主要参数配置

请问数据抓取系统(spider)怎样发现web上出现的一些链接啊？

图系统-如何掌握大数据图处理系统