登月1号:支付宝演绎空中升级绝技

出于业务稳定发展的需要,阿里集团内部的技术发展路线上曾经是双“强”并立:支撑淘宝、支付宝等业务的以Hadoop为底层的云梯1和支撑阿里云、阿里金融等业务的以自主研发“飞天”及ODPS为底层的云梯2。而阿里内部对于二者的技术争论由来已久。

2013年底,随着飞天5K项目的成功,飞天平台用技术实力证明了其在“性能强劲、架构灵活,可支撑业务飞速发展;技术自主可控,安全可靠;成本更具优势”等方面,远超Hadoop集群的优势。阿里集团融合数据,建设一个统一的底层大数据平台随之成为现实。阿里数据平台团队联合技术保障部和集团各事业部,开始了一系列宏大的登月计划,致力于将搜索、广告、物流等多个BU的数据统一,基于飞天提供开放数据处理服务的ODPS将成为承载阿里集团全部数据的统一处理平台。

“登月计划”共有20多个项目,涉及阿里巴巴和小微金服所有的事业部,覆盖集团全部数据人员,其牵扯人员、资源之多,在集团内部罕见。登月计划的全面启动,标志着阿里集团自研的飞天平台及ODPS服务,从功能和性能上已经渐渐超越了Hadoop,阿里云的技术走在了世界前列。

从Hadoop到ODPS,“登月1 号”启动

登月计划1号项目,选择了一块“硬骨头”----对稳定性、安全性、业务连续性响应等要求最高的支付宝。其最终目标是将原支付宝在Hadoop集群上的业务无缝平稳迁移到ODPS上。登月1号的启动,正式拉开了集团离线业务迁移到ODPS的序幕。谈到当时支付宝的选择,阿里小微金融服务集团数据库技术专家安道全重点强调了两方面:

  • 面对业务高速增长的现状,技术团队在评估支付宝的海量数据存储与计算平台时,发现以目前的技术发展趋势,云梯1无法突破5000台集群管理的瓶颈,更不要说实现后续10000台、20000台的大规模集群扩容目标。而此时,云梯2单集群规模已经从1500台顺利升级到5000台,同时实现跨集群扩展也取得了阶段性成果。技术平台切换有了实践的可能性。
  • 当阿里金融和支付宝业务整合的时候,云梯1和云梯2两套平台不管是在技术上、团队上、业务响应效率上都带来巨大的成本,因此我们必须在最佳时间点做出决策,早了不行,晚了代价太大,打通数据平台的时机就非常重要,一旦打通则为业务长期发展奠定了坚实基础。

安道全表示:“小微数据团队在对ODPS的稳定性的判断和自身发展状况的基础上,在2013年10月17日启动‘登月1号’项目,由支付宝、数据平台技术、技术保障、测试方等多部门组成的技术团队正式启动支付宝升级。”原有基于Hadoop集群的应用,涵盖了原始数据采集,数据仓库应用,数据挖掘以及将数据回馈到前端应用等各个环节,共有超过1万个Hive SQL、MapReduce任务以及外围的各类工具,还有数十PB数据需要迁移到ODPS中。而更大的挑战是,在项目进行过程中所有的任务和数据都是在不断更新的。

为了保障项目的质量与进度,项目组当时制订的策略是避免重构,平滑迁移。也就意味着占迁移主体的所有Hive SQL任务不用进行改写,直接运行在ODPS上,后来项目也很好地做到了这一点。实际上从4月份开始并行,直到5月底所有任务切换到ODPS,同样的SQL一直是并行的运行在两套系统上。原有的MapReducer任务经过简单的接口改写,很快也就迁移到了ODPS中。对于海量的历史数据,项目组开发了专门的工具,将客户端以MapReduce的方式运行在老的Hadoop集群上,以高并发的方式通过ODPS Tunnel服务将数据写入ODPS中,高峰时基本用满了机房间带宽,而Tunnel服务也通过水平扩展服务器的方式满足了实际的要求。

项目的前期花了约两个月的时间主要进行了底层平台功能上的准备,从2013年12月19日开始正式的改造任务,至2014年4月1日开始并行,2014年5月底,所有的任务正式切换到了ODPS平台上。伴随着登月的是用户数据的增长,为了更好地支持业务,在7月份实际上又进行了一次集群间的迁移,而这次迁移对用户几乎完全透明,在前期做了充分准备后,仅停止服务约30分钟,就将所有的数据迁移到了一个新的大规模集群上。这也从侧面验证了ODPS的多集群管理能力,对用户而言提供了理想的扩展性及灵活性。相比于手工从Hadoop集群迁移海量数据的挑战,这个过程平滑的可以算得上是一个奇迹!

谈到这段历程,参与登月1号的技术保障部技术专家大舞给出一个形象的比喻:“从Hadoop到ODPS,相当于在飞机飞行的过程中,将乘客从不同航空公司生产的不同型号的飞机之间实现搬迁,中途却不能让乘客有任何感觉。这不仅要面对飞机没有统一接口的问题,还要求乘客在搬迁的过程中得换件衣服。”

从文件到列表,空中迁移绝技

登月1号的技术挑战由此可见一斑,迁移意味着数据、线上任务、外围的接口以及配套工具的全面切换与升级。其中,最大的挑战来自数据一致性。大舞表示:Hadoop采用的是文件方式存储。而ODPS是表格方式。要将同样的数据从文件导入表格,不只是数据格式,还有很多诸如定位符等细节都不相同。文件中的空格,到了表格中会自动变成两列,这些都会对计算结果造成很大影响。但迁移必须要保证数据一致性,为了保障数据的质量,测试团队开发了自动化对比工具,通过一轮轮迭代对比使数据完全一致。在此过程中发现的不一致,并没有发现平台的缺陷,而在很大程度上反映的是开源的Hadoop与ODPS在某些方面理念上的不同,比如对于脏数据的处理,Hive可以直接返回空值,而出于严谨的考虑,ODPS会将此视作异常。

从1号到N号,登月计划加速

7个多月,225天,上万个生产任务,数十PB数据,登月1号顺利完成。谈到支付宝平台升级所取得的成绩,安道全表示:

  • 平台的稳定性、效率方面:相较以往的任务处理效率,目前整体任务完成时间提前约5个小时左右,其中90 % 任务可在每日上午9点之前完成;另外通过Tunnel服务批量导出账单,从小时级别降到约10分钟级别,性能提升了5倍左右;
  • 平台安全性方面:ODPS用基于数据对象的ACL授权机制完全替代了Hadoop下的HDFS文件授权机制,从根本上提高了数据权限的管理力度,并且在此基础上衍生出Role、Policy、ProjectProtection、LabelSecurity等权限管理手段,在阿里集团内实践证明可以对数千个用户数百万张表进行精确到字段级别的权限管理。

登月1号的成功,既验证了飞天和ODPS可以信赖的技术实力,又更加坚定了各大业务部门实现登月计划的信心。为了更好地服务用户,在登月1号的任务迁移完成后,实际上还启动了一些后续的计划,比如将ODPS中的新研发的准实时SQL逐步的推广使用,目标是缩短交互式的分析任务,提升用户体验,最快的任务缩短到了原来的1 / 3左右。交互式的分布式图计算分析功能也已经投入使用,这些功能全部内置于ODPS中,用户完全不需要自己花费精力在工具上。

目前,从登月2号到登月20 + 号的系列登月计划已经逐一启动。未来,淘系BI、MPI集群业务、直通车广告、定投广告、安全相关数据、共享业务、商家业务、天猫、淘宝、嗨淘等多个项目都将升级到ODPS。基于飞天提供开放数据处理服务的ODPS将成为承载阿里巴巴集团30多个事业部全部数据的统一处理平台。

从Oracle到Hadoop,阿里解决了海量数据存储和分析的问题,数据业务不再受制于规模的瓶颈而发展;从Hadoop升级到ODPS,阿里扫清数据处理的障碍,真正构建起内部统一的大数据平台。与此同时,不断通过自身验证过的飞天以及在设计之初就是为了对外开放、做基于互联网的多租户的公共数据处理服务ODPS,还将以阿里云的产品的方式对外开放服务,使得所有企业都能享受到相同质量的云服务。

可以预见的是,云计算带来的数据处理能力使得数据服务平台成为可能,阿里建设“数据分享第一平台”的愿景距离实现已经不远。


原文链接

时间: 2024-11-27 21:50:50

登月1号:支付宝演绎空中升级绝技的相关文章

观察显示百度8月22号算法升级很温和

  8月22号百度算法升级,将影响作弊站点收录及低质站点的排序,这条新闻成了当天SEO界的头版头条新闻.当时所有的站长都在猜测这次百度算法升级的力度不亚于6月28号,又将有一大部分网站在百度算法升级中倒下.但据这几天我收集到的数据显示这次百度算法的升级跟6月份的那次大升级有着本质的区别,下面给大家介绍一下这之间的区别.   我们知道百度向来对站长下手从不心慈手软,宁可杀错不可放过.6月份的那次大K站中伤及到了很大一部分的正规站,比百度自己宣称的数据要大的多.我几个朋友做正规站的,正规的博客都被K

外星人登月伪纪录片《阿波罗18号》曝首款海报

<阿波罗18号>首款海报 新浪娱乐讯 北京时间11月24日消息,据国外媒体报道,韦恩斯坦公司(The Weinstein Co)近日公布了他们的新片<阿波罗18号>(APOLLO 18)的首款宣传海报.<阿波罗18号>采取伪纪录片风格,在片中被尼克松总统禁飞的阿波罗18号成功登月并且遭遇了外星生命. 影片概要 和<科洛弗档案>(Cloverfield)以及<灵动:鬼影实录>(Paranormal Activity)等伪纪录片一样,<阿波罗1

驳斥登月造假,美国公开阿波罗11号系统源代码

阿波罗11号是人类第一次载人登月任务,阿姆斯特朗和奥尔德林于1969年7月20日走上月面. 现在,NASA也对这项行动越来越持开放态度,包括展示很多曾经秘而不宣的东西. 本周,登月计算机系统的源代码被实习生上传到GitHub,面向全球开放. 这套计算系统由麻省理工设计,不过人们检索后还是发现了很多有趣的代码写法,如BURN_BABY_BURN--MASTER_IGNITION_ROUTINE.agc.TRASHY LITTLE SUBROUTINES(垃圾无用小程序)等. 甚至里面还有莎士比亚的

支付宝11月红包口令 11月1号到11月10号红包口令

11月1日 支付宝数字口令 ,上午10点[80749615],下午16点[22414291] 活动地址:打开支付宝手机客户端,时间一到 输入口令就行. 11月1日 支付宝中文口令   上午11:11分 [用能率洗澡],下午 23:11 分[女神] 支付宝11月2日红包口令大全 1.领取时间:11月2日09:00-11月3日09:00  输入口令:viishow   2.领取时间:11月2日09:30-11月3日09:30  输入口令:天猫达芙妮 3.领取时间:11月2日10:00-11月3日10

百度5月30号百度网站验证方式全新升级

摘要: 百度5月30号百度网站验证方式全新升级,这让各大站们眼前一亮,之前的验证工具不仅麻烦,而且步骤很繁琐,旗下的子站都需要一一验证,这让各大站长很是头疼,特别是子站很多的 百度5月30号百度网站验证方式全新升级,这让各大站们眼前一亮,之前的验证工具不仅麻烦,而且步骤很繁琐,旗下的子站都需要一一验证,这让各大站长很是头疼,特别是子站很多的站长."升级之后会提供三种验证方式供站长选择,且在已验证网站主站的情况下,可批量添加对应的子站,无需进行验证,方便网站管理员快速获得各子站的数据.且在5月30

斯诺登爆料美国1969年登月是造假!

8月1日,斯诺登在俄罗斯获得避难"自由"后第一时间通过推特发布信息:"我相信是俄罗斯首先探索的月球". 此前有英国媒体透露,斯诺登手中掌握有揭露美国1969年的登月是造假的机密文件.这条推特恭维了俄罗斯,献了一份大礼,又貌似仍然遵守了普京关于斯诺登不得直接损害美国重大利益才允许避难的要求. 8月1日,为美国"棱镜"项目揭秘者爱德华·斯诺登提供法律援助的俄罗斯律师库切列纳表示,斯诺登已获得俄罗斯联邦移民局提供的为期1年的临时避难证件,目前他已离开机

NASA曾公布了登月计划制导系统的源码

摘要: 阿波罗11号登月40周年时,NASA曾公布了登月计划制导系统的源码.代码在当时是非常先进的东西,时至今日,NASA开发的软件仍然是最前沿的.现在,NASA的许多软件将可面向公众使用,任 阿波罗11号登月40周年时,NASA曾公布了登月计划制导系统的源码.代码在当时是非常先进的东西,时至今日,NASA开发的软件仍然是最前沿的.现在,NASA的许多软件将可面向公众使用,任何人都可以免费下载,修改,甚至用于商业用途. 据Wired报道,NASA将于下周四公布近几年很多软件项目的源代码,这些代码

杭州人正在用的城市大脑,有可能是人类下一个“登月计划”

上周末,据说全世界最聪明的大脑都来杭州开会了! 一打听,哦,原来是7月9日,杭州举办了全球人工智能高峰论坛.其中的参与嘉宾中有一个我们非常熟悉,阿里巴巴技术委员会主席,王坚博士. 在会上,王博士并没有说人的大脑有多聪明,而是反复提到了一个词"城市大脑".那么"城市大脑"跟人的大脑有什么不同?它是怎么运作的呢? 以下为王博士的部分演讲内容 人工智能再次成为焦点,关键在于互联网变成了基础设施 首先,今天人工智能再次成为了焦点,其实不是人工智能本身发生了重大变化,而是世界

纽约时报公开阿波罗登月时宇航员所拍照片(图)

从"阿波罗11"号看地球 奥尔德林手拿实验仪器在月球上行走 阿姆斯特朗在操作"阿波罗11号" 迈克尔.柯林斯拍下阿姆斯特朗操作"阿波罗"11号上的电视摄像设备 从飞船舱中向外拍摄 国际在线7月14日报道 1969年7月16日,阿波罗11号载着3名美国宇航员第一次成功登月.在阿波罗11号登月的历史性旅程中,飞船的宇航员们用哈苏500 EL相机拍下了许多宝贵的照片.在2004年,这些照片首次向公众展示,近日,<纽约时报>又公开了一组由宇航