如何在短短48小时内用云计算给地球做B超?

今年杭州云栖大会上,中国馆地震局的地球物理科学家王伟涛博士在Tech Insight的数据存储技术实战专场做了一场主题分享:名为《云计算在地震学研究中的应用-利用bcs和海量数据创建虚拟地震》。 他介绍,原本需要一年计算时间的整个中国数千个地震台两两之间的五年数据的计算任务,在云计算中狂飙,48小时之内就计算完成了。

这到底是如何实现的呢?

我们的祖先凝望星河闪耀,却花费万年时间才摸索出天体运行规律。

我们的前辈坐看潮涌潮平,却历经千秋万代才能航行到大洋彼岸。

而我们自己,在这片土地上繁衍至今,却仍旧对脚下的大地懵然无知。

从观察记录到规律预测,几乎是人类科学史的全部逻辑。

但每次我们拼尽全力记下的数据,都只是抬高知识瀚海的涓涓细流。

当我们提笔开始繁复演算的时候,期待的是阿基米德跳出浴缸、牛顿举起苹果的那一刻。

王伟涛博士正是这样计算的执笔人,他来自中国地震局。他想知道的,是我们脚下大地的每个细节。

浩如烟海的计算

我们经历的每一次地震,都在提醒自己预测和预警这种灾害的迫切性。但是,我们距离这个目标还很远。

为更好的认识地震这一物理现象,需要极其的详细的地壳结构影像,而为了绘制这张地下地图,又需要详尽的数据计算。 目前为止人类打到地下最深的井是前苏联钻探的科拉超深井,约12.2公里,但是地震的震源深度往往在地下十几到几十公里,当前的科技根本无法在震源深度开展直接观测。

所以我们需要依靠分布在全国的数千个地震台来对地震波进行探测,震波在地下的传播特性,受到地质结构的影响,这也是地震波可以用来绘制地底图像的原理。这些地震台可以感知地震的“大震波”,也同样可以捕捉日常的“大地噪声”,例如海潮拍击大陆的震动。王伟涛说。


根据地震波进行地底成像的原理

王伟涛告诉记者,像他这样的地球物理科学家几乎都是半个程序员。 因为从地震波到地底成像,中间要经过超越一般人想象的大规模程序计算。他的计算模型是这样的: 每一次震动都会由近至远依次传递到各个地震台,所以理论上来说,每个地震台都会对同一次震动做出自己的记录,这些数据既有差异有又联系。

利用这些数据,可以计算出一些“虚拟地震”。 用每两个地震台之间进行数据互相关对比计算,就可以获取研究中国地下的总体结构所需要的宝贵数据。

虚拟地震可以模拟出和真实地震一样的数据,所以可以用于本来没有发生地震的地区的地底成像 每个地震波数据都有 E,N,Z(东西,南北,垂直)三个向度的分量,全国2000多个永久和临时地震台就是 6000 个分量,每年的数据量大概是 30TB,而我们的总数据量已经到了 PB 级别。

由于我们要相互对比每一个地震台每个时间点的每个分量数据,这些计算量是呈指数级增长的。 王伟涛的智慧和经验,恰恰表现在他所设计的程序和算法之上。 但耗费很大心力完成这个算法的王伟涛博士发现,他才踏上了万里长征的第一步,还有一个巨大的困难横亘在面前。

图中每两个地震台之间的连线(灰色)都是需要计算的数据,总计算量极其庞大。如果使用单机对这些数据进行计算,大概需要七年时间。按照一个人的职业生涯二十年计算的话,我在退休前只能完成三次计算。在这种情况下,大规模分布式的云计算似乎成为了唯一的选择。

然而,云计算的机理绝不像听起来这么轻盈。记者也采访到了中国地震局的合作伙伴阿里云的童鞋们,在他们眼里,云计算和科学研究一样,集合了人类最顶尖的智慧。


所需存储空间、计算量和预计单机计算所需的时间

分布式存储:有关农场的游戏

云存储就像一个大的农场,每个服务器就像一个工人,而你的数据就是羊。阿里云存储高级专家承宗说。看来他是个牧场达人。“分布式存储”,可以看作分布式计算的基础条件。也就是说,你的羊要先放进阿里云的“农场”,它的工人才会帮你照料、喂养、剪毛、纺线。

对于王伟涛博士的数据来说,仅仅是存储在云端,就需要无数“黑科技”。

在将要进行的计算中,计算系统会对存储系统进行大规模的访问。而这些访问必须要平均地打到服务器上,绝不能存在热点。而这还不够,由于服务器的硬件故障在大规模集群中会变成一个常态事件,所以必须做好资源的实时调度和提供故障容忍能力。

例如保证在摘掉一块硬盘的时候,其余的硬盘要迅速用备份数据把存储追齐。

承宗举了以上两个例子。这两个例子换成农场的比喻,大概是如下表述: 农场对于工人的工作量要平均分配,绝不能出现“对着一个羊薅羊毛”的情况发生。另外,农场每天都有工人病倒、请假,要在最短的时间把他的工作合理分配给很多人,这样别的工人也不至于负荷过大。

整个阿里云的分布式文件系统,被命名为盘古。在承宗心里,盘古还有很多智能化的“黑科技”。

他举例了一个例子: 我们人类看到的磁盘都一样,但是盘古看到的磁盘各不相同。它会根据历史访问数据的积累,例如写入的速度和效率,对每一块磁盘的健康度进行打分。

对于健康状况不好的磁盘,就相应减轻一些工作分配。这些底层的技术,都可以为王伟涛博士下一步真正的计算做准备。

承宗说,在分布式计算中,数据带宽成为了一个重要的参数。从王伟涛博士的角度来看,如果把数据存储在自己的服务器上,仅仅利用阿里云的计算能力进行结果输出,是不能实现的。原理很简单,分布式计算的所有服务器都向一个存储单位发送数据读取请求,带宽会被瞬间堵死,再强大的算力都无法发挥。

至于具体数据,百兆光纤的带宽一般是 100Mb/s,而硬盘的带宽最高可达几Gb/s,而阿里云存储内网访问带宽(云计算系统内部)可以高达Tb/s级别。

批量计算:建造一座金字塔

接下来,王伟涛博士的数据就会进入最终计算的环节。我熟悉了自己习惯的 Linux 系统,所有的计算代码都是在这个环境中完成的,如何让我的代码在云计算的环境中发挥作用,是一个很重要的问题。王伟涛说。


地底成像数据的计算流程

在地震科学研究方面,阿里云显然没办法提出算法建议,所以他们需要做的是,提供一个通用的接口,让王伟涛可以使用自己机房中的电脑、界面和Linux 系统,来对云上的计算进行控制。

阿里云提供的兼容和适配能力,是阿里计算专家林河山颇为骄傲的地方。 王博士在此之前没有使用过分布式集群,也没有使用过“超算”,所以直接跨越到云上,从操作和控制层面来说,对他来说会是个挑战。

我们提供的计算接口可以让单机程序不做修改就高效执行在云环境下。用户通过几句简单的命令就能在云上调动大规模的计算资源进行分析,而不需要学习复杂的分布式计算知识。其实很多从其他地方过渡到云计算的人都会有这样的问题,所以不仅是王博士,很多其他用户也会用到我们的通用计算接口。他说。 这个时候,大规模计算的障碍基本被扫清了。

不过,林河山告诉记者,云计算真正的核心技术,还在于批量计算的算力调度之上。

大规模计算的加速流程和模式 计算规模扩大之后,就会造成对存储资源的访问非常频繁,这时,对于访问的并发量的控制就要非常“小心”了。

王博士的应用有非常多的小I/O请求,如果每一次I/O请求都直接访问云存储,由此带来的延时会对计算效率造成影响。为了进一步优化计算性能,批量计算采取了“分布式缓存”的策略,把有可能会用到的数据,提前缓存到计算节点周围。这样,就可以让计算能力不受集群规模的限制。林河山说。

而即使是这样,还远远不够,对于数据访问究竟采取多大“粒度”,是考验系统智能的重要时刻。如果一次读取过多,可能造成带宽拥堵,如果一次读取过少,又会造成频繁访问。而针对不同类型的数据,都要做出合理的预判,自动地读取,是一项艰巨的任务。

打个比方: 这如同建造一座金字塔,数万名“奴隶”要分工合作。工程师要决定:是牺牲速度一次性运输多个石块到现场,还是牺牲数量,一次快速运输一块石头到现场。

同样,面对浩瀚的金字塔工程,每时每刻要分配多少奴隶来搅拌砂浆,分配多少奴隶来搬运石块,分别分配多少奴隶来负责建造各个区块,这个即使是工程师都需要仔细考量才能完成的任务,都要交给系统自动完成,难度可想而知。

当然,如此繁复的计算过程,出错是经常会发生的。

林河山举了一个例子: 在渲染追光动画的动画片《小门神》时,阿里云的容错机制就发挥了作用。(当时在峰值有 2000台服务器参与了大规模批量计算。)一般情况下, 对于视频的渲染工作是一个连续的长流程。如果某一帧渲染中哪怕只有一个节点出问题,都会造成访问的大规模延时,造成逻辑上的拥堵,产生“热点”。

林河山说:“阿里云的做法是,在计算出错之后,在最短的时间内重跑,如果在跑的过程中确认节点存在问题,还会自动调度到另一个地方,这些对于用户来说都是没有感知的,但是在背后,我们必须做出大量的努力。

绘制地下的世界

原本需要一年计算时间的整个中国数千个地震台两两之间的五年数据的计算任务,在云计算中狂飙,48小时之内就计算完成了。


地球内部成像,恰似人体的B超

这在云计算时代来临以前是无法想象的。 从科学研究的角度来看,这些数据是原始的地震观测数据的数据产品,同时也是后续科学研究所依赖的重要数据,可以很好地支撑王伟涛进行接下来的研究。 从外界看来计算过程非常顺利,而刚才我们所感受的一切艰辛,都只发生在背后的代码世界。

借用阿里云产品总监李津的话: 当计算结果输出的时候,我们所有的技术人员都沉默了。

我们多么渴望这样的数据早几十年被计算出来,这样我们就能为人类认识地震这一自然灾害争取宝贵的时间。

抛开商业的云雾,可以看到云计算真正的的锋利所在。

王伟涛的研究并没有停止,他说: 目前为止,我只做了2011年到2015年的一个向度上的数据分析,未来还会继续把更多向度和频率上的数据进行计算。科学研究的精确度是可以一直提高的。越来越精确的地底数据,会为矿产勘探、防震减灾和地震科学研究提供非常强的支持。

科学的有趣之处,正是在于不断地尝试。有可能一觉醒来想到新的方法,就要重新改写公式和代码,通过计算进行验证。

也许有一天,属于王伟涛的那只苹果会悄然落下。那一刻,是王伟涛的胜利,也同样是人类计算力的胜利。 我们倾尽全力提高算力,把数据的涓涓细流汇聚成洪荒之力,只是因为我们不愿对脚下的大地懵然无知。

本文作者:史中

来源:51CTO

时间: 2024-09-20 13:36:42

如何在短短48小时内用云计算给地球做B超?的相关文章

淘宝针对申请退货买家公开承诺48小时内退款

本报讯(记者 杨帆)对于淘宝网 卖家超时发货且消费者申请退款48小时内卖家无响应的,系统将自动退款. 昨日,在"3·15"即将来临之际,淘宝网宣布,对于消费者的投诉,要求卖家必须在48小时内响应:逾期不响应的,淘宝消费维权人员将在48小时内介入处理:淘宝网承诺,对于所有交易纠纷,淘宝网将会在30天内全部处理完毕. 而对于卖家超过承诺时间发货的,如果消费者申请退款48小时内卖家无响应的,系统将自动退款. 淘宝网介绍,消费者在淘宝网上任何店铺购买商品,收货后发现商品与卖家描述不符或出现质量

详解网游家长监护工程:48小时内响应举报

2月5日上午消息,网络游戏未成年人家长监护工程今日在京启动.在这一监控系统下,家长对未成年人沉迷游戏的举报将在48小时内得到响应,游戏公司在核实之后,根据家长要求对相关帐号进行时间区间.长度等限制处理,乃至予以查封. 今日上午十点,网络游戏未成年人家长监护工程首批试点启动仪式将在京召开.这一工程是在文化部鼓励和指导下,由完美时空.腾讯.盛大游戏.网易.畅游.巨人网络等六家国内网络游戏骨干企业,自主发起的行业自律行为. 目前启动的试点流程中规定,家长发现孩子玩游戏过于沉迷时,可致电游戏公司专线,提

党代表淘宝“卖”服务“下单”后48小时内“发货”

商报讯 (记者 张哲) 过去一年,各区.县(市)履行基层党建工作有哪些创新?今年又有什么新的举措?昨天,杭州市召开2012年度区.县(市)委书记履行基层党建工作责任制述职会议,12个区.县(市)的"一把手"上台述职. 党代表淘宝"卖"服务 上城区委去年掀起"我们的价值观"活动高潮,评出20名"岗位之星":在全区范围搭建"365"智能协作平台,整合需求.服务.党建等信息,共收集处理25万余条信息. 上城区委还

一张图看苹果iOS 7 48小时内的采用情况

苹果刚刚推出了最新的移动操作系统iOS7.新的iOS7更新是 iOS 系统自07年iPhone发布以来最大一次变化.iOS7比以前更扁平,采用全新的图标界面设计,并有上百项新改动,其中包括控制中心.通知中心.改进的多任务处理能力等等.但是如此激进的变化用户接受程度如何呢?现在48小时过去了,移动数据监控机构New Relic利用48小时内监测到的iOS使用数据做了一张信息图,从图中我们可以清楚地看到iOS7的部署情况:48小时内iOS7的装机率达到了 43%,这个速度还是相当的可观的.除了外观上

在48 小时内 iOS 7 的装机率达到了 43%

苹果在上周正式发布了iOS 7,根据New Relic发布的统计数据显示,在48 小时内 iOS 7 的装机率达到了 43%,这个速度还是相当的可观的.继iOS 6集成新浪微博之后,针对中国区的用户,iOS 7同时整合了新浪微博,腾讯微博两大社交平台.据腾讯微博向透露,相比起新浪微博,iOS 7深度整合了腾讯微博的SDK授权. 具体来说,就是iOS 7中所整合的腾讯微博,除了支持在iOS系统层面分享图片.文字到腾讯微博之外,iOS7和腾讯微博在Social Framework进行了更为深度的合作

YouTube将提供视频下载 用户可在48小时内观看

硅谷网讯 最近,谷歌(微博)旗下YouTube宣布,将在11月份提供下载视频.离线时观看的功能,但这一功能遭到http://www.aliyun.com/zixun/aggregation/35646.html">视频制作商Vevo的反对. 根据YouTube这一功能,用户可以将网络视频下载到本地,在48小时之内观看. Vevo表示,不会参加谷歌的这一功能. Vevo是美国著名的音乐视频制播出网站,其在YouTube运营有1.5万个频道,每月视频播放次数多达30亿次,Vevo可以获得广告分

“ANI蠕虫”在短短24小时内接连出现5个变种,在互联网上迅速扩散

瑞星反病毒专家介绍说,这些"ANI蠕虫"的变种同样利用上周末才刚出现的Vista.XP等操作系统的ANI高危漏洞,至今微软尚未发布针对该漏洞的补丁.由于此病毒传染速度快.威胁较大,瑞星于上周末发出今年第一个"橙色安全警报"(二级). 据瑞星技术部门分析,"ANI蠕虫"及其变种不仅传播和危害方式与"熊猫烧香"病毒相似,更抄袭了"熊猫烧香"在病毒体内留言的方式,在最新变种的病毒中,瑞星专家发现了"I

一个联通玉树员工地震48小时内回忆录(组图)

"这几天我感觉过了很久很久.很幸运的是,我们联通只有一个员工受伤,现在联通通信情况已经百分之百恢复了,我们的3G信号也还能用,媒体都在用",4月18日,回忆起地震后的数天历程,中国联通玉树分公司副总经理张崇誉如此说.图为:中国联通副总经理张钧安和宁夏分公司总经理刘运尧在玉树灾区指挥救灾图为:中国联通联手红十字协会.西宁民政局举办的一个募捐活动现场 把员工挖出来往西宁送 张崇誉实际上就是在运营商灾区抗灾和通信保障的一个缩影. 在联通玉树分公司主持工作的张崇誉实际上就是这个分公司的负责人,

48小时:大数据时代我们应该怎么应对雅安地震?

下午,看到我的新浪微博中几乎都是关于http://www.aliyun.com/zixun/aggregation/13250.html">雅安地震的消息,其中不少还是我认识的人在转发各种信息,让我无法不动容.而微信里真的是冷冷清清啊.这个时候觉得新浪微博不商业化又怎么了,起码它在让很多人关注雅安地震后每一分每一秒发生的事情. 小时候看过一部电视剧,名字叫做<48 小时>.48 小时或者 72 小时是地震后救灾的黄金时间,而我想到一个问题,48 小时内普通人能为灾区做些什么呢?