解密阿里技术发展路径:去“IOE”实现蜕变 自己革自己的命

  

  2008年的一天,阿里巴巴集团(下称“阿里”)开了一次内部会议。在这次当时看来很平常的会议上,明确了两个议题:一,阿里是一家数据公司;二,阿里要把“计算”变成一种像水和电一样的公共品。当时在中国还没有人谈“大数据”的概念;更没有人想到云计算会和一家互联网公司未来发展如此紧密。

  1999年阿里成立之初,创始人“十八罗汉”中就不乏技术基因。公开资料显示,创始人之一吴泳铭1996年毕业于浙江工业大学计算机系,后成为支付宝的技术总监。盛一飞有多年用户体验设计经验。周悦虹,java架构师,技术精湛,传言是一名极客。

  随着淘宝网的成立,2003年阿里开始与IBM合作,解决用户、商品和消费信息分散的问题。当时的阿里已经从十几个人的小公司延展出很多新业务,技术系统也变得庞大复杂。到了2007年,阿里在IT上的投入之大,一度成为IBM、Oracle等国外IT厂商在中国的标杆用户。当年,阿里首席数据库管理员冯春培甚至受到了Oracle公司亚太区高级副总裁Brian Mitchell亲切接待,并被授予甲骨文全球第100个ACE(Oracle ACE 是指那些通过撰写书籍、文章或博客,分享Oracle经验的技术专家)。

  但实际上,这种甜蜜的合作关系并没有持续太久。

  2008年前后,阿里业务高速发展使已有的IT设备使用到达瓶颈。根据时任支付宝数据库架构师、现丁香园CTO冯大辉的描述:“在阿里的IT架构中,淘宝和支付宝等拥有大量IBM小型机和Oracle数据库,以及EMC、戴尔存储设备。用户激增与用户产生的数据越来越多,每年早上8:00?9:30之间CPU(中央处理器)要保持98%的使用率。”IBM小型机价格从几十万到高达百万级人民币,与Oracle签订的数据库软件费用达数千万,加之一大笔软硬件支付和一大笔维护费,阿里的技术发展进入一个压力很大的时期。

  紧迫之中,阿里在寻找一名技术高管,要为庞大复杂的业务搭建起全新的技术架构,建立全球顶尖IT团队。在2008年的这次内部会议上,阿里确定了“数据”和“云计算”两个重要的新战略。

  时任阿里巴巴首席架构师的王坚成为接受这个挑战的不二人选。

  “去IOE”念头萌生

  阿里巴巴CTO王坚

  加入阿里巴巴之前,王坚任微软亚洲研究院常务副院长;再之前,他是浙江大学心理学系教授、系主任。加盟阿里后,王坚马上着手第一个重要工作——筹划集团全年的IT预算。他反复琢磨,发现一个重要问题:即便追加巨额IT投资,阿里购买的软硬件也未必能满足其业务的高速增长。

  “双十一”大促对IT计算资源要求庞大,很难预测业务爆发点所需要的计算资源峰值。但过了高峰期,IT资源空下来,又会造成浪费。这些实实在在的难题是为阿里提供软硬件服务的厂商从没遇到过的,IBM、Oracle和他们的客户都不能为阿里IT提供任何可供借鉴的经验。其次,整个IT就像是一个黑箱子,一旦出现技术故障后,阿里的技术团队要打电话给厂商等待事故处理,而且高端存储设备的性能数据都是由厂商掌控,阿里自己的技术团队并没有太大的控制权。技术维护变成极其繁琐的工作,支撑业务的效率大大下降。

  而在地球的另一端,Google和Amazon是和阿里业务相近,并值得学习的两个好榜样——Google是世界上少有的能拥有大规模分布式架构技术的互联网公司,Amazon是第一个将自己云计算技术对外提供服务,实现营收的公司。

  在一次预算讨论中,阿里巴巴集团负责技术保障的副总裁刘振飞和阿里技术保障部DBA负责人周宝方偶然提到:“阿里应该尝试用PC技术替代小型机技术。”一听这句话,王坚一下子激动起来:“既然已经思考了这个问题,为什么我们不郑重写下来?明确阿里再也不购买小型机。”

  “去IOE”(在IT设备中去除IBM小机、Oracle数据库及EMC存储)由此得名。

  在2009年到2013年整个“去IOE”的过程中,阿里技术发展策略逐渐从“商业软件”、“开源软件”发展到自主技术和云计算构成的综合技术服务能力。便宜的Commodity PC替换掉过去昂贵的硬件设备,淘宝、支付宝等重要业务将旧的“IOE”集中式架构转变为分布化架构,这种架构是把IT后台迁移到云计算平台上的基础工作。

  在“去IOE”过程中,阿里技术团队也完成了一次成熟的转型,这为阿里向外提供云服务打下了基础。王坚来阿里之前,阿里各业务技术后台是独立运营的,他将阿里运维团队、平台技术部、大淘宝运维团队、云计算运维团队等整合到一起,成立了集团统一的IT技术保障部。阿里旗下子业务模式差别巨大,IT工具和价值理念也完全不同,所以统一团队经历了很大的技术挑战和组织挑战。这项工作实际为后期阿里云向外提供服务打下了很好的基础,阿里后期推出的“聚石塔”、 “聚宝盆”业务,与这支在“去IOE”过程中锻炼出的队伍密不可分。

  除了团队,技术人员也面临着个人转型。王坚曾多次说:“‘去IOE’最难的就在于人。每一次的技术转换,我们都是在革自己的命。如果没有同事们当时敢于尝试的勇气,阿里的技术难题都可能扛不过去。”曾有一位技艺精湛、对业务非常熟悉的淘宝数据库管理员,在“去IOE”过程中,他从Oracle数据库技术,转到MySQL数据库,最后去研发阿里自有技术OceanBase数据库。

  技术的重新选择让阿里最有价值的一批技术人才,随时要面对熟练的技术突然没有用的情况。曾参与IBM小机下线的技术人员楼方鑫曾说过这样一段话:“去掉一两个系统的IOE不是最难的,也不能代表成功;通过‘去IOE’提升和锻炼团队的能力,协调好运维和开发团队间的工作才是关键。”

  小机,再见!

  

  阿里巴巴最后一台下线的IBM小机

 

时间: 2024-07-30 10:08:01

解密阿里技术发展路径:去“IOE”实现蜕变 自己革自己的命的相关文章

解密阿里巴巴的技术发展路径

2008年的一天,阿里巴巴集团(下称"阿里")开了一次内部会议.在这次当时看来很平常的会议上,明确了两个议题:一,阿里是一家数据公司:二,阿里要把"计算"变成一种像水和电一样的公共品.当时在中国还没有人谈"大数据"的概念:更没有人想到云计算会和一家互联网公司未来发展如此紧密. 1999年阿里成立之初,创始人"十八罗汉"中就不乏技术基因.公开资料显示,创始人之一吴泳铭1996年毕业于浙江工业大学计算机系,后成为支付宝的技术总监.

阿里和12306合作,政府去IOE已成趋势

导读:如果单纯将阿里云与12306的合作视为业务层面的互补,那就肤浅多了.政府去IOE已成趋势,高效政府云服务采购已成必然,这次两者的合作这或许仅仅是云服务进军政府的开始.但愿未来在云服务器帮助之下,12306可以轻松顺畅,政府官网可以减少加载时间,政府数据库不必一直在等待查询.当然,也希望棱镜门事件不在我们国家发生. 上周业内传出阿里云与12306开始合作,称接手75%也是宕机最大隐患的查票业务,随即阿里方面确认了该传言.回想刚刚过去的春运抢票高峰期,对于服务器宕机的吐槽似乎明显少了很多.但我

阿里人首次分享:真实的阿里巴巴去IOE故事

沈洵,专家,阿里中间件技术部资深专家 2016全球敏捷运维峰会演讲嘉宾 08年加入阿里,参与过阿里巴巴的分布式数据库TDDL的以及分布式消息系统项目. 目前主要在负责阿里的云产品的技术与服务,包括分布式数据库DRDS, 分布式消息系统MQ,以及企业级应用服务框架EDAS 我是08年加入阿里的,有幸经历了阿里业务成长最快的那段时间,也留下了很多宝贵的记忆.今天在这里给大家讲讲我们几年前经历的那些有意思的故事. 首先来讲讲去IOE.对于阿里巴巴去IOE的过程,大家可能觉得就是老板们振臂一呼,大家齐头

阿里巴巴王坚:“去IOE”不是技术升级 而是时代变化

2013年"双十一",天猫成交额达350亿,支付宝成交笔数1.88亿,阿里巴巴再一次赚足眼球. 2012年起,阿里集团闪电般地拆分成7家公司.25个分支机构,并在金融业肆意扩张,在移动互联网领域大举收购--马云构建的阿里生态圈,正在从城邦成长为"帝国".在这一系列高调动作的背后,实则与一位低调的人有关,他就是王坚. 2008年,王坚加盟阿里巴巴成为集团首席架构师,即现在的首席技术官.这位前微软亚洲研究院常务副院长被马云定位为:将帮助阿里巴巴集团建立世界级的技术团队,

BAT解密:互联网技术发展之路(2)- 业务如何驱动技术发展

BAT解密:互联网技术发展之路(2)- 业务如何驱动技术发展 在<互联网技术发展之路(1) - 技术发展的驱动力>一文中,我们详细阐述了对于服务类的业务来说,业务发展是技术发展的驱动力.那接下来我们就看看业务究竟是如何驱动技术发展的.   互联网业务千差万别,但由于他们具有"规模决定一切"的相同点,其发展路径也基本上是一致的.互联网业务发展一般分为几个时期:初创期.快速发展期.竞争期.成熟期. 不同时期的差别主要体现在两个方面:复杂性.用户规模. 复杂性 业务的发展第一个主

阿里推动“去IOE”,能否引发“多米诺骨牌效应”?

浪潮成了"风口上的猪",一个月内,股价翻倍. 5月底,一则消息被疯传:由于信息安全问题,中国政府要求国内金融机构放弃采购IBM,集体转向国产.浪潮似乎早就知道飓风要来,当天高调宣布"I2I"(IBM to Inspur)计划,对IBM主导的高端服务器市场发起正面进攻. 当这个通俗版的故事在资本市场炒得满天飞时,财新挑起了另一个技术版本的争论--"以阿里云去IOE",阿里云也因此被推向风口浪尖. "去IOE"的概念最早由阿里巴巴

BAT解密:互联网技术发展之路(8)- 用户层技术剖析

互联网业务用户层技术主要包括:用户管理.消息推送.存储云.图片云. 用户管理 互联网业务的一个典型特征就是通过互联网将众多分散的用户连接起来,因此用户管理是互联网业务必不可少的一部分. 稍微大一点的互联网业务,肯定会涉及到多个子系统,这些子系统不可能每个都自己来管理这么庞大的用户,由此引申出用户管理的第一个目标:SSO,单点登录,又叫统一登录.单点登录的技术实现手段较多,例如cookie.token等,最有名的开源方案当属CAS. 除此之外,当业务做大成为了平台后,开放成为了促进业务进一步发展的

【在线论坛】8位阿里技术大V,解密阿里双11背后的黑科技

更多内容可参见:https://yq.aliyun.com/articles/64680    2016年双11是新零售的一个起点.交易额1207亿,成交额相比于去年增长32.32%(2015年的这一数字为912.17亿):开场30分钟,创造每秒交易峰值17.5万笔,每秒支付峰值12万笔的新纪录:菜鸟单日物流订单量超过4.67亿,创历史新高--马老师说:双11最大的挑战是不断扩展技术边界,去准备强大的技术解决人类尚未碰到的问题.每届双11对阿里来说都是一次大考,正是通过这样一次次的大考,阿里将双

阿里云 iDST 总监初敏博士:AI技术发展与商业化之路 | GMIC 2017

雷锋网按:4 月 27 日,GMIC 2017(全球移动互联网大会)北京站开幕,主题是「天·工·开·悟」.今天上午,阿里云 iDST 总监初敏博士做了题为「AI 技术发展与商业化之路」的分享,雷锋网对速记做了不改动原意的编辑和整理. 初敏博士 2009 年加入阿里巴巴,目前在阿里集团 iDST(Institute of Data Science and Technologies)负责语音识别,语音合成,自然语言理解,知识问答,对话管理等人机交互相关技术研发以及产品研发. 非常高兴有机会跟大家分享