2017双11技术揭秘—阿里巴巴数据库技术架构演进

作者:谌文涛(俞月)

每年电商双11大促对阿里技术人都是一次大考,对阿里数据库团队更是如此。经过9年的发展,双11单日交易额从2009年的0.5亿一路攀升到2017年的1682亿,秒级交易创建峰值达到了32.5万笔/秒。支撑这一切业务指标的背后,是底层技术体系的一次次迭代升级。

阿里巴巴数据库系统经历了10多年的发展,今年正式确定从 第三代大规模分库分表 向 第四代X-DB分布式数据库系统 演进的目标。X-DB分布式数据库的落地已经在2017年双11大促中获得了可行性验证,同时底层开始引入存储计算分离架构。分布式在系统稳定性、容灾能力、容量扩展性、技术体系内聚性上有了质的提升,今年双11开启了阿里数据库技术架构新的篇章。

本文以阿里电商交易链路中的核心系统库存中心为例,一窥阿里集团数据数据库的发展历程。库存中心数据库集群(简称库存DB集群),从2012年独立拆分后,其发展可以概括为以下3个阶段:

  • 2012~2013年:分库分表水平拆分,构建大规模数据库集群
  • 2014~2016年:单元化异地多活架构,数据多单元间同步
  • 2017年:X-DB 1.0分布式集群部署上线,新的起点

作为阿里数据库体系中的核心系统,库存DB集群的发展历程可以作为缩影,代表了阿里巴巴数据库体系的演进。

诞生

库存DB集群诞生于2012年,是业务垂直拆分的产物。库存最早是商品中心数据库的一个字段,随着淘宝业务的复杂化,单一字段已经满足不了基于后端仓储的库存管理体系,所以便有了垂直拆分出来的库存DB集群。

水平拆分

2012~2017年,双11交易额一步步的刷新纪录,库存DB集群的QPS/TPS也实现了几十倍的增长。水平拆分的基本思路是把数据库扩展到多个物理节点上,让每个节点处理不同的读写请求,从而缓解单一数据库的性能问题。

借助于数据库团队的DTS(Data Transmission Service)产品,库存中心进行了大规模的水平拆分,分库和分表数量扩展到最初的几百倍,平稳的支撑了这一个阶段业务的快速发展。与此同时,在热点商品扣减、防超卖数据强一致需求、跨城异地容灾数据质量问题、业务数据量急剧膨胀、超大规模数据库集群运维等问题点上,迫切需要新一代架构来解决。

异地多活单元化

2014~2015年,为了进一步提升用户的购物体验,库存DB集群与主站交易链路一同做了单元化部署。单元化很大程度上解决了买家的使用体验问题,在本单元内封闭完成读写操作。但是对于卖家维度的数据,比如编辑商品、扣减库存,就会涉及到跨单元中心去写。关于单元化架构,之前已经有了很多介绍。

有了多个单元,对于底层数据库来说,面临的最大挑战就是数据同步,因为对于单元封闭的买家维度的数据,需要把单元的数据全部同步到中心;对于读写分离类型的业务,我们要把中心的数据同步到单元。这条数据通道就是依靠DRC(Data Replication Center)来完成。

如今,DRC不仅成为集团单元化链路的基础设施,对应的云产品DTS已经从2016年开始让阿里云用户、聚石塔商家低成本的搭建异地容灾。单元化架构给库存DB集群带来的最大挑战是多单元间的数据强一致问题,我们也为此做了很大的努力。

X-DB分布式集群

2017年双11,库存DB集群第一次使用X-DB 1.0分布式集群部署,平稳的支持了32.5万笔/秒的交易创建峰值。X-DB是阿里巴巴自研高性能分布式可全球化部署数据库,其核心技术目标概括为以下6点:

  • 100%兼容MySQL生态,应用无缝迁移
  • 跨AZ、Region的全球化部署能力,5个9以上的可用率
  • 自动化的数据Sharding,计算、存储均可水平扩展
  • 高性能的事务处理,相同硬件下达到MySQL 10倍的事务处理能力,百万TPS
  • 自动化的数据冷热分离,存储成本为MySQL的1/10
  • 计算存储分离,存储按需扩展

库存DB集群双十一部署架构:

正是由于X-DB提供了全面兼容MySQL、高性能、低成本、跨城容灾、数据强一致的能力。在2017年年初,数据库团队和业务研发团队确定了在库存中心部署X-DB 1.0的目标,解决业务目前面临的痛点:

  1. 全面兼容MySQL,实现业务系统平滑迁入
  2. 极致性能,双11单实例热点扣减峰值TPS是去年的3倍
  3. 低成本,相比于传统的单元化主备架构部署,减少2个数据副本以及单元间数据同步资源成本
  4. 跨城容灾,借助Batching和Pipelining技术实现跨城强同步场景吞吐量几乎无衰减
  5. 数据强一致,借助Paxos协议提供多单元间数据强一致能力;批量关闭中心集群全部实例,集群30秒内完成单元选主切换,数据零丢失
  6. 计算存储分离,彻底解决传统机型计算资源和存储资源固定配比问题,搭配容器化技术,大促峰值期间将数据库弹性部署运行在离线任务主机,落地零扩容成本支持双十一大促

X-DB首次亮相在2017年双11的舞台,平稳支撑零点峰值32.5万笔/秒,开启了阿里数据库体系从分库分表时代向分布式集群时代的大门。技术之路永无止境,我们今天的技术现状离业务对我们的要求还有很大的差距。但是千里之行,始于足下,借用《魔戒》里的经典台词:“There’s some good in this world, Mr. Frodo. And it’s worth fighting for.”

时间: 2024-09-20 04:10:22

2017双11技术揭秘—阿里巴巴数据库技术架构演进的相关文章

零点之战!探访阿里巴巴8大技术专家,提前揭秘2017双11关键技术

点击进入阿里云双11主会场 摘要:在距离双11已经不到10天的这个时刻,一场看不见硝烟的战争似乎已经打响.随着一年一度购物狂欢的即将到来,网上出现了很多阿里技术应对双11的段子."阿里工程师拜关公求服务器不宕机","技术人员围着被子敲代码"等传闻也被消费者们所津津乐道.那么,针对双11期间极为严苛的技术压力,阿里巴巴究竟是用怎样的方式进行解决的呢?在接下来的文段中,就让我们一起来对阿里巴巴在2017双11背后的技术进行一次细致的了解和探访.   阿里巴巴针对双11的

揭秘2017双11背后的网络-双11的网络产品和技术概览

引言 揭秘2017双11背后的网络-一张图读懂2017双11中的网络产品和技术 揭秘2017双11背后的网络-双11的网络产品和技术概览 揭秘2017双11背后的网络-直面双11洪峰的负载均衡SLB 揭秘2017双11背后的网络-全球最大混合云架构 注:如果对网络产品还不太了解的,推荐阅读 一张图看懂阿里云网络产品[一]网络产品概览 下面分别对双11中的主要网络产品-专有网络VPC,负载均衡SLB,NAT网关,高速通道以及混合云架构进行介绍 VPC-安全的网络容器 专有网络VPC(Virtual

2017双11交易系统TMF2.0技术揭秘,实现全链路管理

  阿里巴巴资深技术专家 毗卢 毗卢,阿里巴巴资深技术专家,主导设计了TMF2.0框架,并基于该框架完成交易平台架构升级改造,目前负责商品中心,专注电商领域业务建模与工程交付相结合的研究与平台推广. 交易平台遇到的挑战 在刚刚过去的2017双11,交易峰值达到了32.5万笔/秒,这给整个交易系统带来了非常大的挑战.一方面,系统需要支撑全集团几十个事业部的所有交易类需求:要考虑如何能更快响应需求.加快发布周期:如何能为新小业务提供快速支撑.降低准入门槛:是否足够开放使得业务方能做到自助式扩展:新需

一张图看懂2017双11中的网络产品和技术

一张图看懂2017双11中的网络产品和技术 揭秘2017双11背后的网络系列文章: 揭秘2017双11背后的网络-一张图看懂2017双11中的网络产品和技术 揭秘2017双11背后的网络-双11的网络产品和技术概览 揭秘2017双11背后的网络-直面双11洪峰的负载均衡SLB 揭秘2017双11背后的网络-全球最大混合云架构

双11背后的网络自动化技术

面对全球化的数据中心网络,如何实现网络的自动化运维.巡检与优化?如何应对超大规模数据中心网络的诸多挑战?在本次阿里巴巴2016双11技术创新论坛上,来自阿里巴巴基础架构事业部的研究员张铭分享了双11背后的网络自动化技术,为你揭晓网络自动化的那些事. 以下内容根据演讲视频以及PPT整理而成. 阿里巴巴目前拥有全球化的数据中心网络,阿里的网络分布在包括亚洲.美洲.欧洲和大洋洲在内的全球各个大洲,而且部署的数据中心的数量和规模随着阿里巴巴的业务增长还会不停地扩大.这些数据中心之间由高带宽.低延时的网络

“刺激的”2017双11 阿里安全工程师首度揭秘智能风控平台MTEE3

"太刺激了,太刺激了!如果那个48%真出问题,整个安全部的双11就可能是3.25!"知命推了推眼镜,语速明显快了一些.伴随着肢体语言,知命表现出来的是程序员解除了重大Bug时的那种兴奋与激动.用这部IMDB评分最高的电影向阿里安全的工程师致敬 MTEE3是什么?那个48%又是什么鬼? 知命,阿里安全业务安全产品技术高级专家,智能风控平台MTEE3的技术负责人.这一切,他向我们和盘托出. MTEE3,性能.智能双重加持 MTEE3的中文名称叫业务安全智能风控平台,最后面的3代表这是全新一

双11之后,阿里巴巴的又一个数字节来了

"双11"之后,阿里巴巴的又一个"数字节"来了.昨日,淘宝发布数据显示,"双12"当天成交卖家数超过200万,其中有99万卖家设置了店铺红包,49万卖家参与了购物车定向营销.消费者方面,8443万张总额为11.8亿元的店铺红包被买家领走. "疯狂"数字背后,是谁在为"双12"买单? 600件商品2分钟抢光 "秒杀客"一上午接上百单 "果真是秒杀,一眨眼就没有的节奏啊--&quo

【IT技术】阿里RDS首席产品架构师何云飞:阿里云数据库的架构演进之路

专访阿里RDS首席产品架构师何云飞:阿里云数据库的架构演进之路 原文作者:pipihappy8888 http://www.itpub.net/thread-1887486-1-1.html 如果说淘宝革了零售的命,那么DT革了企业IT消费的命.在阿里巴巴看来,DT时代,企业IT消费的模式变成了"云服务+数据",阿里云将打造一个像淘宝电商一样多方共赢的云生态.而作为阿里云庞大帝国的重要成员,阿里云RDS为社交网站.电子商务网站.手机App提供了可靠的数据存储服务.好的架构不是设计出来的

2017双11技术揭秘—阿里数据库计算存储分离与离在线混布

作者:吕建枢(吕健) 背景 随着阿里集团电商.物流.大文娱等业务的蓬勃发展,数据库实例以及数据存储规模不断增长,在传统基于单机的运维以及管理模式下,遇到非常多的困难与挑战,主要归结为: 机型采购与预算问题在单机模式下计算资源(CPU和内存)与存储资源(主要为磁盘或者SSD)存在着不可调和的冲突:计算与存储资源绑定紧密,无法进行单独预算.数据库存储时,要么计算资源达到瓶颈,要么是存储单机存储容量不足.这种绑定模式下,注定了有一种资源必须是浪费的. 调度效率问题在计算与存储绑定的情况下,计算资源无法