“双11”核武器——全链路压测详解

以下是精彩视频内容整理:

“双11”对于阿里而言是一场保障系统稳定性的实战。用有限的成本实现最大化的集群整体吞吐能力,带给用户畅爽的极致购物体验,这依靠阿里多年技术沉淀下来的一套高可用架构基础设施,也就是阿里系统稳定性保障的“核武器”——全链路压测。它的重要作用不仅体现在“双11”购物狂欢节,而且横向拓展到高德,优酷,钉钉等非电商的应用形态。

全链路压测平台由阿里巴巴中间件技术部高可用架构团队提供,该团队同时负责包括容量规划、准入控制、限流降级、流量调度、弹性伸缩等高可用架构的基础设施,主导的同城容灾、异地多活、单元化体系建设支撑阿里巴巴电商链路的分钟级故障切换和业务稳定运行。

 全链路压测在阿里

企业高可用架构涉及线上管控,故障演练,异地多活,全链路压测。与全链路压测相关的有容量规划,弹性伸缩和线上压测。

阿里的运维体系横向分了规模化、稳定性、监控、变更和资源五部分,全链路压测所处位置在稳定性部分。

分布式服务化复杂的线上环境包括CDN、网关、负载均衡、分布式页面系统等,技术生态十分丰富,在这样的环境下任意节点都可能成为瓶颈、出现短板、暴露问题。以阿里“双11”活动为例,从2009年到2017年业务增长呈指数型增长趋势,这使得系统的可用性面临更加严峻的挑战。

一些小而美的中小企业面临的挑战会更加夸张。像系统容量、基础技术设施瓶颈、中间件瓶颈、业务性能以及系统之间依赖的影响等众多因素都缺乏有效的验证手段。

 2013年以前没有全链路压测,重大活动保障时对业务目标进行拆分,在做单个系统的容量规划时,所有的依赖环节能力是无限的;然而实际发生流量洪峰的时候,很多后端系统流量过不去,带来了零点秒杀时候被限流这种不好的用户体验。

全链路压测平台,作为大促稳定性最重要的“核武器”,经过2013年到现在5年的沉淀,已经承载了阿里生态里几乎所有业务线,而且用来重点保障“618”、“双11”、,“双12”等重大活动的高稳定性。全链路压测平台每年承载整个阿里生态内全/单链路的压测数在10000次以上,每年“双11”单个项目上通过全链路压测识别到的全局各种性能瓶颈问题均在400个以上。

 全链路压测的价值不止于满足业务带来的挑战,更在成本方面带来极大的收益。一方面是节约机器成本,另一方面是人力成本:

1.机器成本,不同业务形态需要的容量配比不同,业务行为对不同模块的挑战不一样,通过全链路压测找到短板,把系统水位拉平,用最少的机器承载业务模型。

2.人力成本,全链路压测之前,几百个系统从夏季甚至春节过后就开始准备“双11”的技术优化,全链路压测之后,通过压测动态调整资源,做到“变压边弹”,既省时省力,又更加精准。

 全链路压测和PTS

上图是全链路压测整体方案架构图。压测数据,压测场景,压测执行是给施压人员提供的交互页面,通过场景编排,流量构造去做压测前期准备。通过任务下发,部署于全球各地的CDN节点可以最大程度模拟用户场景真实性。通过EDAS 、ARMS 监控,快速帮客户识别到性能问题,找出调用链路问题所在,生成压测数据性能报告。

全链路压测是一个模拟线上环境的完整闭环,由5大核心要素组成:

1.压测环境:对应用户真实的线上环境,具备数据与流量隔离能力的生产环境;

2.压测基础数据:构造满足大促场景的核心基础相关数据(如买家,卖家,商品信息),影子库里构造相同量级的数据;

3.压测流量(模型、数据):成百上千的接口组合,到复杂的接口之间的参数传递,复杂的条件判断来构造精准的全局流量模型,和真实业务情况保持一致;

4.流量发起:模拟全国各地真实的用户请求访问,探测站点能力;

5.问题定位:多维度的监控和报表,服务端可通过其他生态产品协助定位。

全链路压测闭环中主要体现三种能力,分别是:

1.翻译构造能力:便捷的构造全局业务场景和流量数据的能力。不需要编码,直接通过页面拖拽操作就可以完成场景构造。

2.模拟掌控能力:最大程度还原真实用户发起流量的能力,压测过程流量发起节点是全国CDN。压测过程中的问题无法预知,目标量级内随便调节每条链路并发或TPS能力,且极低误差,上千万TPS情况下做到1QPS误差。

3.展现定位能力:客户侧的体验级监控,报表提供能力,服务端快捷的定位能力。

上图为典型电商场景测试实景图,纯界面化卡片拖拽编排业务模型。抽象出链路的最小单位,应对于大家理解的API,接口,URL……进而抽象出一批指令(比如思考时间、集合点、条件跳转、cookie存取、全局准备、并发用户限制等),链路配合指令就能模拟全局用户行为。后续会做更业务化的封装/数据工厂,降低理解成本,未来运维同学自己就可以完成产品编排。

 全链路压测面临的新挑战

随着全链路压测在阿里生态体系内和业界其它公司的实践,有一些问题开始凸显:

1.对内对外对架构有不同要求。

2.并发还是PTS。金融、保险、传统制造类、互联网公司与阿里对并发的理解不同。阿里衡量系统性能时倾向于TPS,也就是1秒处理多少笔。

3.理解成本是否可以继续降低。更好的将行业里的固定形态业务进行封装。

4.计费问题。当深度封装使应用性提高到一定程度的时候计费就变成了偏底层的指标,中间的转化对产品和账单体系、监控报表上提出了很大的挑战。

时间: 2024-07-31 01:57:07

“双11”核武器——全链路压测详解的相关文章

系统稳定性保障核武器——全链路压测

为什么要做全链路压测? 对阿里巴巴而言,每年最重要的一天莫过于双11.这是因为在双11的零点,系统会遭遇史无前例的巨大洪峰流量冲击,保证双11当天系统的稳定性对高可用团队来说是巨大的挑战.在这个挑战中会有很多不确定因素,大致分为两方面: 技术架构带来的不确定性,阿里在08年开始对系统进行拆分,由原有的单一系统拆分成了分布式架构,包括CDN.网关.负载均衡.分布式页面系统等,整体的技术生态十分丰富.分布式环境任意环节出了问题都可能会对系统造成影响: 业务发展带来的不确定性,系统的可用性随着业务增长

阿里10年分布式技术沉淀:阿里高可用体系核心缔造者、全链路压测创始人告诉你!

本次活动看点十足,大咖齐聚.纯正干货,下面给大家做下详解介绍,相信看后定会让你动心! 议题详情 双11核武器全链路压测--张军 / 阿里巴巴中间件高级技术专家 阿里巴巴双11备战期间,保障系统稳定性最大的难题在于容量规划,而容量规划最大的难题在于准确评估从用户登录到完成购买的整个链条中,核心页面和交易支付的实际承载能力.全链路压测的诞生改变了这一现状,通过对双11进行模拟,支持线上不影响正常用户访问的集群读写压测,获得最真实的线上承载能力数据.全链路压测开启了大促稳定性保障的新纪元,被誉为备战核

详解双11终极“核武器”:全链路压测如何诞生?

本文内容来自阿里巴巴集团双11技术团队撰写的<尽在双11:阿里巴巴技术演进与超越>一书.该书被阿里巴巴集团CTO行癫盛赞为"迄今为止对双11技术演进最客观.最详实的还原",目前正在全国火热销售中. 全链路压测被誉为大促备战的"核武器".如果之前关注过阿里双11相关的技术总结,对全链路压测一定不会陌生,这个词的出场率几乎是100%,从对双11稳定性的价值来看,用"核武器"来形容全链路压测毫不为过. 背 景 历年的双11备战过程中,最大的

双11备战核武器:全链路压测今年如何升级?

在刚结束的2017年双11中,阿里巴巴再一次更新了记录:每秒32.5w笔的交易创建峰值.25.6w笔的支付峰值.就是这样一个由上千个不同业务系统和技术组件构建的业务站点,在如此巨大的洪峰流量冲击之下,依旧稳如磐石,创造了一个用户体验丝般顺滑的双11购物狂欢节.这是一个互联网技术上的奇迹,堪称世界级的超级工程,而大促准备阶段的"全链路压测"就是奇迹背后的秘密. 众所周知,阿里巴巴有着非常丰富的业务形态,每一种业务形态背后都由一系列分布式的技术体系提供服务,随着业务的快速发展,特别是在双1

2017双11-开启智能全链路压测之路

智能压测概述 智能化压测,通过产品化.服务化.云化,一键完成阿里集团内外全链路压测准备和实施,保障集团内外全链路稳定:同时在常态化压测中,化身特种机器人,挑战系统承压能力,智能调整容量配比,快速定位问题. 如下图1所示,智能压测主要包含智能压测模型.自动化施压.预热系统化.压测云化.常态化智能压测五个模块. 图1 智能压测概述图 智能压测模型:高效提供一套准确的大促零点高峰压测模型 自动化施压:压测实施过程一键搞定,快速执行压测,准确发出目标量级的流量 预热系统化:确保各应用数据&系统预热全面且

全链路压测-大促备战核武器

全链路压测被誉为大促备战的"核武器",如果之前有关注过阿里双11相关的技术总结,对"全链路压测"一定不会陌生,这个词的出场率几乎100%,从对双11稳定性的价值来看,用"核武器"来形容全链路压测毫不为过. 1. 背景 时间:2016年10月29日凌晨:地点:阿里西溪园区1号楼7楼"光明顶":事件:200多人聚在一起,精神抖擞,摩拳擦掌.这阵势,是要去约群架吗?别紧张,他们只是在进行一次双11的模拟演习-全链路压测. 历年的双1

2017双11-开启智能全链路压测之路

一  智能压测概述       智能化压测,通过产品化.服务化.云化,一键完成阿里集团内外全链路压测准备和实施,保障集团内外全链路稳定:同时在常态化压测中,化身特种机器人,挑战系统承压能力,智能调整容量配比,快速定位问题.       如下图1所示,智能压测主要包含智能压测模型.自动化施压.预热系统化.压测云化.常态化智能压测五个模块.                                                                      图1 智能压测概述图

模拟演练,全链路压测!京东是如何应对双11流量高峰挑战

   [51CTO.com原创稿件]双十一电商购物狂欢节马上就要到了,相信有很多朋友跟笔者一样,早早就选好了自己心仪的产品,期待在这个促销的节日里能够花最少的钱买到自己喜欢的产品.不过,在这个万众期待的日子里,电商技术人员面临的压力可不小.那么,电商平台背后的技术工程师,是通过哪些方法和措施来保障双11流量高峰带来的挑战的.笔者近期就这一话题,采访了京东商城总架构师刘海峰先生,就京东在技术上保障双11的一些做法,进行了分享.刘海峰先生告诉笔者,今年双11备战的思路,可以用四个关健词来描述,分别是

【译】ASP.NET MVC 5 教程 - 11:Details 和 Delete 方法详解

原文:[译]ASP.NET MVC 5 教程 - 11:Details 和 Delete 方法详解 在教程的这一部分,我们将研究一下自动生成的 Details 和Delete 方法. Details 方法 打开Movie控制器,找到Details方法. // // GET: /Movies/Details/5 public ActionResult Details(Int32 id) { Movie movie = db.Movies.Find(id); if (movie == null) {