阿里技术保障部:阿里云的幕后英雄

阿里技术保障部:阿里云的幕后英雄

阿里集团上市前夕公布的最新27名合伙人名单中,出现了公司副总裁、技术保障部负责人刘振飞的名字。这当然既是对他个人的认可,也是对阿里技术保障部这一幕后英雄团队贡献的肯定。阿里集团包括阿里云、天猫、淘宝、支付宝、小贷在内的各项业务,以及近几年双十一、飞天5K等诸多奇迹的背后,这个团队都发挥了关键性的基础支撑作用。然而,不仅外界听说过阿里技术保障部的人不多,就连我虽然与刘振飞已经相识多年,对他们团队的具体情况以及与阿里云的渊源也只是一知半解。近日我终于找到一个机会,在杭州和他好好聊了一上午。

阿里技术保障部的故事,要从2009年8月说起。今天的用户可能难以想象,当时淘宝网非常不稳定,动不动就访问不了,或者要停机维护,搞得领导们很生气很无奈。以至于当时淘宝的总裁陆兆禧感慨,淘宝2008年全年成交额是999.6亿,要是少宕几次机,就过千亿了啊。刘振飞说:“你想,当一个公司的CEO天天在琢磨这种事,就说明技术平台上真是出大问题了。”9月25日,为了解决淘宝系统的问题,成立淘宝技术保障部,将阿里妈妈和淘宝的运维、数据库等工作和团队合并,当时正在北京负责淘宝广告(阿里妈妈)技术团队的刘振飞被领导点将,负责组建这支团队。

刘振飞搬到杭州真正进入角色,已经到了2009年的11月2日,此后很长时间内,他和团队都处于救火队的状态,几乎每天大概都要处理几十起紧急情况。但更大的挑战却是阿里妈妈和淘宝两个运维团队的合并并不那么顺利。“你要知道是两套体系,两套人合起来,人的观念不一样,大家经历不一样,习惯不一样,工具不一样,什么都不一样。合起来真是非常痛苦的过程。”刘振飞甚至夸张地说这一经历给自己留下了不小的心理阴影。

而每年的双十一对刘振飞团队的成长帮助巨大。2009年第一个双十一销售额只有5000万,对系统影响不大,连刘振飞也是在活动要结束前半小时收到淘宝商城负责人逍遥子(张勇)的邮件才知道的。一年后的第二个双十一却是淘宝技术保障部经历的一次大挑战。由于业务部门事先估算的成交量2.5亿偏低(实际达到了9.36亿),系统准备不足,整个活动期间都如履薄冰,走在崩溃的边缘,曾经一度就要实施降级方案,限制部分宝贝图片的显示了。所幸,最后系统经受住了考验。2011年刘振飞决定不再盲从业务部门的预估,而是从技术角度做足准备。这一年还创立了由各部门技术骨干组成技术保障总指挥部、预先大规模压力测试、大量演习和详细的应急预案等流程和机制,很好地保证了总销售额从不到10亿到52亿、191亿和362亿的逐年飞跃。

2011年还有两件事儿至关重要。一是6月淘宝一分为四,除淘宝网、淘宝商城(后改名天猫)、一淘三个业务部门外,还有一个不太为外界注意到的阿里技术与公共服务共享平台。对此,刘振飞分析,当时的拆分可能是马云和王坚等集团高层想将公司技术底层统一起来,贯彻One Company战略的开始。后来,这个共享平台的技术部分改名为阿里集团技术保障部。

另一件事是刘振飞团队与阿里云运维的合并。由于上次合并的痛苦回忆,加上当时公司内外对阿里云有很多争议,刘振飞对这事起初并不积极,拖过了双十一之后,又有双十二,眼见着就往春节后拖了。可是阿里云的运维负责人道夫很主动,而且提出了很具体的方案,他的那句“这方案你听完以后,你爱怎么合怎么合”感动了刘振飞。双方很快达成了一致,合并总体也非常顺利。技术保障部发展到今天,涵盖业务运营(包括合作创新、标准化和知识产权),性能与容量(架构、性能、容量、优化),系统研发(网络平台、网络产品、SDN、服务器研发、无线技术、数据引擎、算法平台等),供应链管理(ODM管理),数据库(MySQL、OceanBase、SQL Server和RDS),平台与工具(工具、流程、监控、自动化、配置、研发协同平台、硬件管理平台),平安生产,系统运营和云PE等多个方面,猛将如云,而且同时具有运维的经验和自主研发的实力。

刘振飞还透露了一个鲜为人知的细节,因为对阿里云心里没底,在接手前他私下直接问过马云本人对阿里云到底是什么态度,我是全力去干,还是说应付应付就完了。当时马云是这么回答的:

在王坚加入阿里之前,我跟教授(指曾鸣)讨论公司的未来,觉得云计算和大数据代表未来,对国家、民族、社会的发展有长远的意义,所以我们要干,这是第一点。但是怎么做云计算大数据?我们谁也不知道。现在来了个人叫王坚,他说我知道怎么做,为什么不支持呢?这是第二点。第三点,即使万一做失败了,那也没关系,咱们的人倒下70%,还有30%活着,咱们活下来的人继续打扫战场,换个方向继续干,总要把它做出来。有了老大的这种明确表态,刘振飞心里清楚该怎么做了。“云计算是公司战略,什么叫战略?战略就是公司一定要干,理解了执行,不理解你也要执行。”

接下来2012年的头几个月,他连续得罪了两个人。一个是负责阿里金融的孙权(胡晓明)。他们是阿里云的第一个重要内部客户。但是由于阿里云的产品当时仍不太成熟,问题很多,孙权找到刘振飞,表示不想用阿里云了,要改用淘宝的体系,让技术保障部来支持。刘振飞本着云计算是公司战略的精神,拒绝了这一要求。同时,阿里云和技术保障部专门抽调技术骨干组成团队,驻扎到滨江办公区为阿里金融提供贴身服务。最终获得了他们的认可。

下一个被得罪的,是时任淘宝副总裁的菲青(王文彬)。他为了上聚石塔项目(电商开放平台),来找刘振飞谈技术保障方面的事情,也是不愿意用阿里云,要用淘宝技术体系,同样吃了闭门羹。“我当时说如果用淘宝体系的话你自己找人去玩儿,要用云计算,我全力顶你。我就是这样非常粗暴地利用手中职权强迫大家往战略方向上去走。”刘振飞笑着说。

2012年的双十一,阿里云支撑聚石塔完成全部订单20 % 的处理,成为云计算的一大亮点。集团外部也有CCTV5的网上直播、浙江台风预警系统等出色的案例。但阿里云最终真正证明自己,还是2013年的事情。除了依靠阿里云迅速成长为基金业土豪的余额宝之外,飞天5K项目具有决定性的意义。

事后总结,飞天5K这个项目并非人为规划而是逐步发展出来的,其中有几个历史节点很关键。第一个关键点就是去IOE,虽然去IOE最开始是王坚提出来的,但与云计算没有直接关系,可是做着做着就发现殊途同归了。去IOE内部的争议也非常大,但做到最后,大家发现这是一个有利于国计民生的大事。第二个关键点是2010年我们自己研发的海量关系数据库OceanBase立项,现在已经成为整个公司的基础数据库,包括支付宝交易和账务系统所用的Oracle,很多应用所用的MySQL,最终都会转到OceanBase上。第三个关键点是2010年的双十一,技术保障部的组织和双十一的保障流程建立起来了。然后的关键节点就是飞天5K项目,之后内部通过登月计划,正在争先恐后地将原有的数据处理平台全部迁移到基于飞天5K的ODPS上。最先动手的登月一号是支付宝,已经完成了。接下来的关键点还有今年ODPS的对外发布,外部客户现在所用的基础设施和内部支付宝、淘宝所用的,已经是完全一样的了。

刘振飞说,更长远地来看,5K这个项目将在阿里巴巴历史上留下很重的一笔。在此之后,阿里技术团队内部停止了争论,原来做两摊事儿不时竞争的人,兵合一处,并肩作战。与之对应的,是阿里云的口碑越来越好,网上能见到的吐槽也越来越少。马云后来说过一句话,他说飞天、ODPS和云OS这三个东西,是我们阿里巴巴要重心打造的重武器或者核武器,这是我们的技术的核心,一定要搞好。

刘振飞透露,最近淘宝系的负责人也向他表示,已经在认真考虑核心系统上云的问题了。内部对云计算达成共识之后,刘振飞和阿里技术保障部基于几年的实战经验,对云计算本身和自己要承担的责任与面临的挑战,做了全面思考。关于他们的思考结果和计划,我们留给下一期。

刘振飞简介

刘振飞这个名字,可能外界并不太熟悉。其实,对于技术圈,尤其是《程序员》杂志的老读者和CSDN网站的资深网友来说,刘振飞并不陌生。他是河南鲁山人,却有点山东大汉的意思,个子很高,性格直率。1996年获得北京大学硕士学位,C++程序员出身,曾在微软Office组任程序经理。早在2004年,他就因BugFree这款开源软件受到广泛关注。2005年《程序员》杂志从第1期开始连续三期刊出了对他的访谈《Bug管理的经验与实践》,第8、9期又连载了他撰写的《网站项目成功管理实践》。这一系列细论软件和互联网研发管理经验的文章广为流传,产生了很大影响。2007年和2008年两届SD 2.0大会,刘振飞又成为演讲嘉宾,这时他已经成为淘宝广告团队的技术总监。2009年,他受命组建淘宝技术保障部,后发展为整个阿里集团的基础技术支撑部门。2014年成为阿里27名合伙人之一。


原文链接

时间: 2024-08-30 18:14:59

阿里技术保障部:阿里云的幕后英雄的相关文章

阿里云和腾讯云免费SSL证书

阿里云部署SSL证书 http://www.cnblogs.com/sslwork/p/5984167.html 查找中间证书 为了确保兼容到所有浏览器,我们必须在阿里云上部署中间证书,如果不部署证书,虽然安装过程可以完全也不会报错,但可能导致Android系统,Chrome 和 Firefox等浏览器无法识别.请到 中间证书下载工具,输入您的Server.cer,然后下载中间证书,请将中间证书保存为Chain.cer. 服务器证书和中间证书连接 首先我们需要将中间证书Chain.cer加入到服

双11阿里核心交易系统上云 为全球首次

本文讲的是双11阿里核心交易系统上云 为全球首次[IT168 云计算]今天,全民电商狂欢节双11正式拉开帷幕,从零点开始,位于水立方的天猫交易展示电子大屏正式开始启动,零时31分,天猫双11购物狂欢节交易额突破190亿元,达到3年以前全天的成交量.17小时28分,2015天猫双11全球狂欢节交易额超719亿,超过2014年全国社会消费品单日零售额! 今年双11,阿里巴巴正式上线了全球电商渠道,涉足海外商品市场,在全民海购热潮的持续推动下,阿里此举无疑又一次引爆了全民购物的热情.据天猫内部统计,今

阿里云和腾讯云,最终谁会成为中国的AWS?

一个支持着淘宝.天猫日常数亿用户对网页.图片的访问,一个经历过QQ.微信.腾讯游戏等真正海量业务的技术锤炼. 两家巨头在稳定.安全.价格.用户体验方面的博弈不相上下. 在未来,中国的云计算市场格局究竟会怎样发展? 不以时间较短长,用户体验最重要,谁会成为最好用的公有云平台? 竞争者中,腾讯云所施加的压力最为明显. 在第三季度,腾讯支付相关服务及云服务收入同比增长348%,总营收为人民币49.64亿元,其中腾讯云服务收入同比增长超过200%,对比阿里云的同比增长130%,腾讯云的增速很足. 在拼性

阿里公布财报 云业务已成下一个增长极

本文讲的是阿里公布财报 云业务已成下一个增长极[IT168 云计算]昨日,阿里巴巴集团公布2017财年一季度(2016年4月-6月)财报,云计算业务依旧不负众望,保持高增长势头,营收达12.43亿元,同比增长156%,再次成为全球云计算增长标杆,增速超越国际友商,创下了连续5个季度增速都超过100%的纪录. 阿里云连续5季度营收增幅超100% 预计2019年收获 不久前,阿里巴巴集团董事局主席马云在投资者日上表示,阿里巴巴的业务已经形成矩阵,旗下的业务和公司轮流领跑,轮流扛鼎,首先是B2B三年,

公有云盈利了 阿里Q3财报云服务抢眼!

本文讲的是公有云盈利了 阿里Q3财报云服务抢眼![IT168 评论]继之前,亚马逊公布其第三季度财报,宣布其旗下云服务AWS盈利的消息之后.昨日晚间,作为国内最大的公有云服务提供商阿里云,也在阿里集团的整体第三季度财报中表现抢眼,成为阿里集团原主营电商业务之外,未来最强劲的新的业务增长点.消息一出,引起业内普遍关注.因为在业务红利档口一直被唱衰的公有云服务,如今真正的扬眉吐气起来.没错,未来看阿里巴巴的财报,受关注的除了电商以外,还多了一个至关重要的项目,那就是云服务! 公有云服务春天来了? 我

阿里云云盾混合云解决方案终于来了

在刚刚过去的2016杭州 · 云栖大会上,阿里云云盾 · 混合云安全解决方案首次亮相,意味着阿里云上的安全能力,现可以赋能给专有云和本地机房的用户.解决方案介绍页也于今日正式登陆阿里云官网,用户可联系安全专家进行购买. 在全球范围内,企业搬家公共云为大势所趋.Garter数据显示,2016 年全球公有云服务市场规模可望达到 2,086 亿美元,较 2015 年的1,780 亿美元成长 17.2%. 而在国内,大多数企业还处于从云下到云上,从私有云到公共云转型的阶段.2017年底,近半数的国内大型

阿里投资魅族 从云到端软硬通吃

摘要: 事情算是办好了.2月9日上午,魅族创始人.董事长兼CEO黄章在微博中写道. 2月9日,传闻半年已久的靴子终于落地.魅族科技同阿里巴巴集团联合宣布,阿里巴巴集团将投资魅族5.9亿 事情算是办好了."2月9日上午,魅族创始人.董事长兼CEO黄章在微博中写道. 2月9日,传闻半年已久的靴子终于落地.魅族科技同阿里巴巴集团联合宣布,阿里巴巴集团将投资魅族5.9亿美元.与此同时,海通开元基金也将投资魅族0.6亿美元.魅族将获得共计6.5亿美元投资,这也是魅族第一次引入战略投资. 阿里巴巴集团CTO

【阿里招聘】阿里神秘团队首次曝光

阿里这么大,然而你可能只知道 淘宝.天猫.支付宝-- 图样图森破! 这次,深藏不露的阿里团队让你一次看够! 阿里2016实习生招聘还在进行中, 送你一份应聘秘籍祝你一臂之力! 1688 我们是国内电子商务的领军者,也是阿里集团旗下历史最悠久的子公司,为全球数千万的买家和供应商提供商机信息和便捷安全的在线交易,也是商友们以商会友.真实互动的社区.全球最大的企业采购.批发平台,千万的企业客户每天十亿级别的交易量,未来市场潜力超过每年十万亿级.领先提供平台级供应链系统,用分布式系统.云计算方案解决日益

如何拿到阿里技术offer:从《2.5年, 从0 ->阿里》体味阿里内推招聘

前面的一段时间时间和大家分享了许多文章,一部分文章是关于校招,另外一部分是关于社招的面试经验,社招往往比校招的要求更加严格,相比之下也更难.其实在阿里,除了校招和社招这两种招聘方式之外还有第三种,就是内推.所谓内推,就是在公司或者企业里,有了解或者熟悉你的人,并且认为你有担任某些技术人员的能力,直接跨过招聘网站将你的简历交给面试官的一种工作的推荐方式(大概就是这样吧). BAT都是存在内推的,在知乎上有篇文章<阿里内推面试,应该注意什么?>(链接)有不少可以参考的意见,其中几点我觉得能让我们更