【阿里飞天】飞天5K:开放比开源更有意义

飞天5K纪念碑,背后是已经部署了5K的机房

到目前为止,只有Google、Facebook这样的顶级技术型IT公司,其集群规模有能力按照5000来划分。今年8月,历时4个月,阿里集团涵括云梯1空间优化与跨机房集群扩展、以及云梯2单集群规模从1500台升级到5000台,同时实现跨集群扩展的5K项目顺利取得阶段性成果。据悉,云梯1和云梯2都是阿里集团处理海量数据储存与计算的系统,前者底层为Hadoop,后者底层为阿里云自主研发的飞天平台。今年上半年,云梯遭遇了机房容量的限制。业务规模增长迅速,预计离线计算集群将从现在的2个集群6000多台,增长到6个集群共21000台服务器,单集群规模要达到5000台。

飞天

飞天是由阿里云开发的大规模分布式计算系统。飞天负责管理数据中心Linux集群的物理资源,控制分布式程序进行,隐藏下层故障恢复和数据冗余等细节,有效的提供弹性计算和负载均衡的服务。

据悉,飞天5K单点集群拥有超过10万核计算的能力、100PB存储空间,可处理15万并发任务数,承载亿级别文件数目。同时,飞天5K单点集群的100TB排序能在30分钟完成,两倍于今年7月1日Yahoo在Sort Benchmark排序测试Daytona Gray Sort所创造的世界纪录——100TB排序完成时间约71分钟。

ODPS

ODPS作为离线数据处理平台,在整个5K的架构上起到了承上启下的作用。 许多新的技术也是第一次应用到5K项目,并且经受了准生产环境的检验,同时也为未来数据业务长期发展打下了坚实的基础。以跨集群数据复制为例:

  • 突破了单集群的数据存储上限。由于目前主流分布式系统master-slave的结构,单集群受限于master的内存和处理能力上限。而现在数据可以存储在多个集群上,不再受单集群的限制;
  • 可以实现多机房数据容灾。目前云梯1上大量非再生数据正在备份到其他集群上,将来可以动态的跨机房备份重要数据。
  • 实现跨数据中心动态负载均衡,将热点集群上的数据和作业动态迁移到空闲集群,缓解热点集群的压力,提高空闲集群的使用率;
  • 对于响应速度要求比较高的请求,可以在多个集群同时调度这个作业,将响应最快的请求返回给用户。

集团内部数据业务发展的需求

对于云梯这样的大规模分布式离线存储和计算集群来说,扩展性一直是其生命线,如果某一天云梯集群不能通过加机器来增加存储空间和计算能力时,那么云梯将无法继续支撑集团的离线计算业务。目前,阿里集团基本所有的重量级应用都会用到阿里云,据唐洪估计阿里内部采用云平台的部门比例已超过一半以上。淘宝每天的日交易量、双十一百万亿交易量的压力,以及新增的余额宝业务,都令云梯遭遇了机房容量的限制。为了突破集群存储的瓶颈,阿里云飞天团队、集团核心系统部、集团技术保障部、CDO数据平台等多个团队紧密协作,成功实现单集群超越5000台、多集群跨机房计算,并完成集群业务的大腾挪。

阿里云资深总监飞天负责人 唐洪

开放比开源更有意义

飞天5K可以说是国内自主研发技术的一次飞跃,但是唐洪认为单单技术实现到一个东西是没有影响力的,唐洪认为这件事最大的意义是“任何一个开发者,当他有一个需求,想要用 5000台机器,跑一个小时,做一些事情的时候。今天我们把这个计算能力提供出去,这件事情是亚马逊、Facebook、谷歌都没有做的事情。在我们看来,我们希望的终极状态大家不要买机器,不要布机器,你就把应用跑云上来。这些工具对这些开发者来说是没有意义的,这点意义上来说,我们觉得开放比开源对他们的帮助更大。”

据唐洪介绍,阿里云现在已经部署了三个5K集群,某种意义上5K是个基础,不是根本的目标。5K作为整个云服务的基础,一方面能提供大规模计算的能力;另外,5K可以帮助开发者做成本的节省、资源调度。5K最关键的是要做共享,比如有些应用是 CPU,有些应用是内存,有些应用是 IO,只有池子大了才能在几个应用之间进行互补。

最大的挑战

在计算能力的开放上,首先要考虑的是安全的问题。其次企业用户和互联网的量级是不一样的,用户管理上有不一样的架构。很多美国的互联网公司也基于Hadoop做了很多的东西,为什么从来没有公司可以把Hadoop这种能力作为功能服务弄出去,这个本身需要做很大的工作才有可能变成一个公共服务的。

唐洪说:“当你把一个服务从企业内部一个应用的人群变成了一个互联网人群时,只有逐一解决了各个问题,才可以给外面的人去用。这也是我们之前为什么会走自主研发道路的原因。”

运维

运维的任务是维护5K平台稳定,为开发提供平稳的开发测试环境,为5K验收提供一个可靠的验收环境,由于集群版本的快速迭代给运维带来很多额外的挑战。而验收测试标准同样异常严格,阿里巴巴进行了10倍数据极限压力测试以及历史上规模最大的机房断电演习,一组数字或许可以更直观的看到这些测试结果:

  • 100T数据TearSort 30分钟完成,比世界纪录快了2倍;
  • ODPS作业10倍测试压力连续7天无人工干预跑过;
  • 高并发12,000 Job全部运行成功,单Job并发100,000 worker成功运行,并发5,000 Job时master在80秒完成故障恢复无作业失败。

唐洪介绍说:“在阿里巴巴,维护淘宝主站的团队和维护阿里云是一个团队,从硬件防断电这个角度来说,我们有设几级的保护措施,比如我们在每一个机房会有柴油机发电机,当市电断电之后柴油发电机可以切换进来,确保它有足够多的能量供给72小时的临时供电。”

“从软件方面说,我们的云服务器很多会提供异地架构的一些方案,但是需要客户去做一些配合。比如说你可以在两个不同的数据中心购买我们的云服务器,这样发生故障的话你可以切换到另一个那边去。”

国内外竞争

去年的阿里云开发者大会上,唐洪曾说过阿里云就是Google + Amazon模式的集成。提到与这俩家互联网巨头的竞争,唐洪表示:“其实,和亚马逊和与谷歌的竞争不完全在于技术,更在于产品与服务。构建云服务,我们有阿里巴巴集团多年的技术积累,我们有非常好的网络资源,而亚马逊在中国自己建骨干网走起来会比较艰难。以谷歌为例,它也有云服务,但或出于保持自己核心竞争力的原因,在云方面一直羞羞答答地没有大踏步向前走。”

而谈及对手亚马逊,唐洪自信地表示可以比亚马逊做的更好。“亚马逊没有类似飞天ODPS这样的大规模计算服务,并且我们对中国的云计算或者是移动互联网市场,可以有第一手精确的了解,这样有利于我们产品的本地化以及贴近用户的使用习惯。”

关于国内的竞争,唐洪认为阿里云作为一家提供通用服务的公司,最大的特点就是不挑客户。”我自己觉得,我们在搞一个长跑,今天的状态是领跑者,有两个人在后面,在这种情况下,你跑步的过程当中,看的是终点在哪里,这个市场还没有完全成熟起来,我们占有的在未来市场可能1%都不到,我们要瞄准更大的市场,不是看现有我们占了多少,但是时不时的要往后看一下,其它的产品有什么好的地方我们可以借鉴。我们部署瞄准市场去打的,而不是竞争对手。前景很光明,道路还是很艰苦的,马拉松才跑了5公里。还有很长的路,还有很多人要跑。”



本文转载自 CSDN  作者 周小璐

原文链接

时间: 2024-09-20 16:24:22

【阿里飞天】飞天5K:开放比开源更有意义的相关文章

【阿里飞天】阿里唐洪:飞天从5K到1万,不是简单的乘以2

10月14日,阿里云栖大会在杭州盛大开幕,本届大会吸引了超过2万名参会人员,超过3000多家云上企业,规模空前,大会现场,包括浙江省省长李强,阿里巴巴集团董事局主席马云,阿里巴巴集团CTO王坚.阿里云总裁胡晓明等大咖们也会悉数出席并带来了精彩的演讲,而关于本届大会的众多干货已经刷爆朋友圈,阿里云栖大会也必将成为本年度云计算领域的关键词. 如果回顾本届大会,"计算"绝对是本届大会上出现频率最高的词汇,"计算,为了无法计算的价值",阿里云启用了全新的 Slogan,赋予

阿里云飞天开放平台总监孙冰:海量流数据处理的服务化

第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕.本次大会以国际视野,洞悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据.云计算与移动互联网.云安全及云计算行业应用等焦点话题.大会还特别设立了云计算服务展示区域,交流国际云计算最新研究成果,展示国内云计算试点城市发展成就,分享云计算发展经验,促进全球云计算创新合作. 在<云计算核心技术架构专题论坛>上,阿里云飞天开放平台总监孙冰介绍了飞天开放平台在海量流数据处理的服务化取得的经验. 图:阿里云飞天开放平台总监 孙冰

阿里云飞天技术总架构师唐洪:飞天技术与应用

一年一度的阿里技术论坛(Alibaba Technology Forum)已走进第7个年头,4月15日,阿里众多技术领军人走进清华校园.通过特设的三大技术论坛,参会人员近距离接触了阿里巴巴在云计算.大数据.金融.电商等方面的技术创新. 在云计算与大数据论坛上,来自阿里云飞天技术总架构师唐洪带来了以<飞天技术与应用>为主题的深度分享.下面是精彩内容内容整理. 图:阿里云发展历程 飞天是阿里云自主研发的大规模分布式云操作系统 飞天设计原则 在开始介绍飞天技术前,唐洪和现场观众分享了当初判断要做云计

IT步入云计算时代 浅谈阿里云“飞天”过程中经历的辛酸

中介交易 SEO诊断 淘宝客 云主机 技术大厅 IT步入云计算时代,在互联网发展中,在云计算发展领域里,它成就了诸多行业,尤其是行业巨头Amazon,它帮助这些行业实现了巨大创收,成就了例如Netflix.Dropbox等行业新贵的崛起.纵观中国云计算市场,能与这些行业巨头对抗的行业,似乎不复存在! 阿里云目标是打造成为互联网数据分享的第一平台,但自成立以来,起初阿里云并未在计算市场中有所成就,就在人们开始质疑,开始忘却之时,阿里云却带着新开发的产品体系强势回归.然而,以"飞天"为核心

【阿里云资讯】国家基因库投入运营:全球最大,采用阿里云飞天云计算操作系统

[9月25日讯]9月22日,位于深圳大鹏新区的中国首个.全球第四个国家级基因库正式投入运营.国家基因库是全世界最大的综合性基因库,1期建成后,综合能力世界第一.为了确保"干库"具备优良的数据吞吐能力和足够安全可靠,国家基因库运营方华大基因同阿里云达成战略合作,基于阿里云飞天操作系统构建了基因检测大数据分析平台,解决了生物大数据高性能计算难题.国家基因库执行主任.华大基因研究院院长徐讯介绍表示:我们希望打造中国乃至世界最大的生物信息数据中心,像是生命健康数据领域的谷歌. 国家基因库有多重

阿里云飞天技术出海 eWTP落地马来西亚

本文讲的是阿里云飞天技术出海 eWTP落地马来西亚[IT168 资讯]3月22日,在马来西亚总理纳吉布.阿里巴巴集团董事局主席马云的共同见证下,马来西亚数字经济发展机构(MDEC)宣布与阿里巴巴集团达成战略合作,双方将联手在马来西亚打造中国以外的第一个eWTP"试验区",帮助马来西亚乃至整个东南亚地区的年轻人和小企业参与全球贸易. 据悉,阿里巴巴旗下云计算公司阿里云将输出世界领先的云计算.人工智能.物联网等互联网技术,以在线的模式为马来西亚各类企业和机构提供服务,并支持马来西亚培育本土

阿里云ODPS正式开放商用

摘要: 近一段时间最热门的话题莫过于世界杯了,在科技领域和世界杯相关的最热门话题,则莫过于Google利用大数据成功预测了本届世界杯的16强. 具体的预测方式是,Google使用了来自Opta S 近一段时间最热门的话题莫过于世界杯了,在科技领域和世界杯相关的最热门话题,则莫过于Google利用大数据成功预测了本届世界杯的16强. 具体的预测方式是,Google使用了来自Opta Sports的数据,评估了每个职业足球联盟过去多个赛季的情况,以及世界杯小组赛期间的统计数据,根据对球员此前比赛中表

阿里云也可以预测世界杯了:阿里云宣布ODPS开放

摘要: 近一段时间最热门的话题莫过于世界杯了,在科技领域和世界杯相关的最热门话题,则莫过于Google利用大数据成功预测了本届世界杯的16强. 具体的预测方式是,Google使用了来自Opta S 近一段时间最热门的话题莫过于世界杯了,在科技领域和世界杯相关的最热门话题,则莫过于Google利用大数据成功预测了本届世界杯的16强. 具体的预测方式是,Google使用了来自Opta Sports的数据,评估了每个职业足球联盟过去多个赛季的情况,以及世界杯小组赛期间的统计数据,根据对球员此前比赛中表

北大博士在阿里:因为期待,你需要更出色!

本文讲的是北大博士在阿里:因为期待,你需要更出色!2016年,星罡在北京大学毕业并获得了博士学位,研究课题为<动态数据流上的实时迭代计算>. 博士期间,他是一位名副其实的学霸,作为一名学生,在学术上取得了令人瞩目的成绩,曾在包括SIGMOD和TODS在内的顶级国际期刊和会议上发表多篇学术论文,并获得校长奖学金.五四奖学金等诸多荣誉和奖励,其中校长奖学金是北大的最高奖学金. 2016年毕业加入阿里之后,参与了实时计算系统Blink的开发工作,负责计算状态的存储.备份和恢复等功能的研发.在2016