模拟演练,全链路压测!京东是如何应对双11流量高峰挑战

  

【51CTO.com原创稿件】双十一电商购物狂欢节马上就要到了,相信有很多朋友跟笔者一样,早早就选好了自己心仪的产品,期待在这个促销的节日里能够花最少的钱买到自己喜欢的产品。不过,在这个万众期待的日子里,电商技术人员面临的压力可不小。那么,电商平台背后的技术工程师,是通过哪些方法和措施来保障双11流量高峰带来的挑战的。笔者近期就这一话题,采访了京东商城总架构师刘海峰先生,就京东在技术上保障双11的一些做法,进行了分享。刘海峰先生告诉笔者,今年双11备战的思路,可以用四个关健词来描述,分别是故障模拟演练,全链路的压测,夯实基础,增强智能。

一、用暴力机器人来模拟演练,提高系统抗压能力

刘海峰先生认为,双11对电商平台主要考量两个能力,第一是故障的应对,即时响应的能力;第二是对于大流量的抗压能力。在两个方面,京东是分别来应对的。

第一,在大规模故障演练方面,引入一个新的方法,包括机器、网络、模块、服务、中间件、数据库等都是有针对性的进行演练,所有设想的故障,全部由工程师团队来模拟。在演练方面,京东分为两组,包括任何一个体系,一个业务,都会分为两组团队,由一组团队来制造故障,另外一组团队做为故障的解决者和响应者,来考察各级力度发生的时候整个基础团队的检测、响应、处理还有恢复的时间,要求所有的故障能够做到不同力度的处理,小的故障不需要人为介入,大故障人工介入在30秒之内能够完成。大促之前的两个月,故障演练会紧锣密鼓的更加密集的来开展,以提高我们对大规模故障的容错能力。

第二,大促期间考量最大的是系统的峰值能力,例如京东在11月1号和11月11号的凌晨都会进行大规模的抢购和促销,瞬间和几秒钟流量非常大,怎么样用有效的技术手段来应对大流量,怎么样很好的规划系统都是比较难的问题。今年,京东创新性引入新的技术——ForceBot,军演机器人,暴力机器人。通过模拟人的行为,机器人通过程序发起大的流量进行全链的压测,最多会发起几百万,几千万的并发链接,与真实用户的操作一样,浏览、搜索、加购物车、下单等等,通过机器人模拟大流量峰值时候的场景,不仅读压测,而且写压测,支付订单等这些环节。为了做好这些工作,16年对系统做了很多改造,需要整个系统支持虚拟的银行,虚拟的仓库,虚拟的用户等等,因为做这种模拟的机器人压测,会产生很多脏数据,需要整个系统容忍,所以整个压测是线上进行的,是通过机器人模拟用户的行为,真实的压线上的,而且整个全链路联动的,这个工作对我们的整个大促是非常重要的环节,也是今年第一次呈现。

二、夯实基础,增强智能,提高用户购物体验

谈到京东技术体系的创新,刘海峰先生表示,经过多年的积累,京东商城形成完全自主研发的技术的对战。在技术架构层面,夯实基础,京东多数据中心的架构已经稳定运行近两年,中间件和容器都是利用自主资源,研发中间件的技术和服务框架等等。存储架构方面,过去几年里京东积累沉淀了自己以内存为中心的存储体系,这是最核心的系统,是半结构和结构的存储系统,几乎应用在京东所有的动态内容的数据存储上。以内存为中心极低的延迟极高的存储量,适合电商的场景。

在业务智能化建设上,京东把机器学习人工智能的技术广泛应用到京东商城各个业务环节,本质上是用技术手段辅助人,增强业务的智能性。此外,我们把机器学习用到商城很多业务环节里面,让网站更智能,生态管理更智能,采销更智能,物流更智能,在网站和用户的体验这个方面更加的个性化,每个人看到的东西是不一样的。当然,客服机器人还能够有效缓解人工客服巨大的压力,特别大促期间,商品做非常丰富的情感分析,辅助我们长期商品的管理和运营,会对POP商品做全自动的信息的合规的检查,节省数百个人力的人工。

另外,京东的订单技术,还可以降低因为取消订单给我们物流带来的成本。大家知道,大促期间会有盲目消费的可能性,比如一冲动就买了三部苹果7,但是下单之后突然想到其实我还没有女朋友,只能送爸妈每人一部,需要取消订单。然而,这时订单已经下到库房,库房已经拣货,这就会增加物流成本。如何解决这一问题呢?京东开发了订单模型,会对订单预测打分,如果预测这个人这一单很有可能在5分钟之内取消,那就会让他在我们的管道里冷静5分钟。当然,如果预测这个人这一单被取消的可能性只有万分之一,就会快速的下到库房。这个技术,会给京东整个物流生产降低非常高的成本。

京东商城研发副总裁马松先生表示,在今年双11备战方面,京东今年也像往年一样,大概对2200多个系统进行了梳理,对一万多个应用一一做了排查,也做了大量的应急预案,假设的各种情况发生的时候怎么样能够快速的恢复我们的系统,恢复我们的能力,保证我们的可容性,保持我们的系统稳定性。在保障方面,京东有五千人战斗在研发的第一线, 24小时处于备战状态,并且进行了数百次的压测,抗洪能力,等待双11到来。

  

  

 作者:ZC

来源:51CTO

时间: 2024-10-26 15:21:21

模拟演练,全链路压测!京东是如何应对双11流量高峰挑战的相关文章

系统稳定性保障核武器——全链路压测

为什么要做全链路压测? 对阿里巴巴而言,每年最重要的一天莫过于双11.这是因为在双11的零点,系统会遭遇史无前例的巨大洪峰流量冲击,保证双11当天系统的稳定性对高可用团队来说是巨大的挑战.在这个挑战中会有很多不确定因素,大致分为两方面: 技术架构带来的不确定性,阿里在08年开始对系统进行拆分,由原有的单一系统拆分成了分布式架构,包括CDN.网关.负载均衡.分布式页面系统等,整体的技术生态十分丰富.分布式环境任意环节出了问题都可能会对系统造成影响: 业务发展带来的不确定性,系统的可用性随着业务增长

双11备战核武器:全链路压测今年如何升级?

在刚结束的2017年双11中,阿里巴巴再一次更新了记录:每秒32.5w笔的交易创建峰值.25.6w笔的支付峰值.就是这样一个由上千个不同业务系统和技术组件构建的业务站点,在如此巨大的洪峰流量冲击之下,依旧稳如磐石,创造了一个用户体验丝般顺滑的双11购物狂欢节.这是一个互联网技术上的奇迹,堪称世界级的超级工程,而大促准备阶段的"全链路压测"就是奇迹背后的秘密. 众所周知,阿里巴巴有着非常丰富的业务形态,每一种业务形态背后都由一系列分布式的技术体系提供服务,随着业务的快速发展,特别是在双1

全链路压测-大促备战核武器

全链路压测被誉为大促备战的"核武器",如果之前有关注过阿里双11相关的技术总结,对"全链路压测"一定不会陌生,这个词的出场率几乎100%,从对双11稳定性的价值来看,用"核武器"来形容全链路压测毫不为过. 1. 背景 时间:2016年10月29日凌晨:地点:阿里西溪园区1号楼7楼"光明顶":事件:200多人聚在一起,精神抖擞,摩拳擦掌.这阵势,是要去约群架吗?别紧张,他们只是在进行一次双11的模拟演习-全链路压测. 历年的双1

“双11”核武器——全链路压测详解

以下是精彩视频内容整理: "双11"对于阿里而言是一场保障系统稳定性的实战.用有限的成本实现最大化的集群整体吞吐能力,带给用户畅爽的极致购物体验,这依靠阿里多年技术沉淀下来的一套高可用架构基础设施,也就是阿里系统稳定性保障的"核武器"--全链路压测.它的重要作用不仅体现在"双11"购物狂欢节,而且横向拓展到高德,优酷,钉钉等非电商的应用形态. 全链路压测平台由阿里巴巴中间件技术部高可用架构团队提供,该团队同时负责包括容量规划.准入控制.限流降级.

阿里10年分布式技术沉淀:阿里高可用体系核心缔造者、全链路压测创始人告诉你!

本次活动看点十足,大咖齐聚.纯正干货,下面给大家做下详解介绍,相信看后定会让你动心! 议题详情 双11核武器全链路压测--张军 / 阿里巴巴中间件高级技术专家 阿里巴巴双11备战期间,保障系统稳定性最大的难题在于容量规划,而容量规划最大的难题在于准确评估从用户登录到完成购买的整个链条中,核心页面和交易支付的实际承载能力.全链路压测的诞生改变了这一现状,通过对双11进行模拟,支持线上不影响正常用户访问的集群读写压测,获得最真实的线上承载能力数据.全链路压测开启了大促稳定性保障的新纪元,被誉为备战核

详解双11终极“核武器”:全链路压测如何诞生?

本文内容来自阿里巴巴集团双11技术团队撰写的<尽在双11:阿里巴巴技术演进与超越>一书.该书被阿里巴巴集团CTO行癫盛赞为"迄今为止对双11技术演进最客观.最详实的还原",目前正在全国火热销售中. 全链路压测被誉为大促备战的"核武器".如果之前关注过阿里双11相关的技术总结,对全链路压测一定不会陌生,这个词的出场率几乎是100%,从对双11稳定性的价值来看,用"核武器"来形容全链路压测毫不为过. 背 景 历年的双11备战过程中,最大的

2017双11-开启智能全链路压测之路

智能压测概述 智能化压测,通过产品化.服务化.云化,一键完成阿里集团内外全链路压测准备和实施,保障集团内外全链路稳定:同时在常态化压测中,化身特种机器人,挑战系统承压能力,智能调整容量配比,快速定位问题. 如下图1所示,智能压测主要包含智能压测模型.自动化施压.预热系统化.压测云化.常态化智能压测五个模块. 图1 智能压测概述图 智能压测模型:高效提供一套准确的大促零点高峰压测模型 自动化施压:压测实施过程一键搞定,快速执行压测,准确发出目标量级的流量 预热系统化:确保各应用数据&系统预热全面且

2017双11-开启智能全链路压测之路

一  智能压测概述       智能化压测,通过产品化.服务化.云化,一键完成阿里集团内外全链路压测准备和实施,保障集团内外全链路稳定:同时在常态化压测中,化身特种机器人,挑战系统承压能力,智能调整容量配比,快速定位问题.       如下图1所示,智能压测主要包含智能压测模型.自动化施压.预热系统化.压测云化.常态化智能压测五个模块.                                                                      图1 智能压测概述图

众电商打压阿里巴巴,群雄逐鹿截和“双11”

上周刚在纽交所上市的阿里巴巴在"双11"到来前,迎接的是电商同行的围攻:京东.国美在线.苏宁易购等颇为看重"十一"促销期.昨日,京东.国美在线同时发声,宣布砸重金拉拢家电用户.电商分析人士指出,今年"双11"仍然以天猫为主导,但市场占有率恐怕不及去年. 群雄逐鹿 阿里巴巴这只吸金大鳄刚刚入池,电商界就立刻掀起了一场大战.在上半年成功上市的京东昨日针对大家电发布"解放十一"声明,针对三四线市场家电价格普遍高于线上价格这一现象,京