中间件技术及双十一实践·稳定性平台篇

稳定性平台——系统稳定运行的保障者

综述

大多数互联网公司都会根据业务对自身系统做一些拆分,大变小,1变n,系统的复杂度也n倍上升。当面对几十甚至几百个应用的时候,再熟悉系统的架构师也显得无能为力。稳定性平台从2011年就开始了依赖治理方面的探索,目前实现了应用级别和接口级别的依赖自动化治理。在2013的双11稳定性准备中,为共享交易链路的依赖验证和天猫破坏性测试都提供了支持,大幅度减小了依赖治理的成本和时间。另一方面,线上容量规划的一面是稳定性,另一面是成本。在稳定性和成本上找到一个最佳的交汇点是线上容量规划的目的所在。通过容量规划来进行各个系统的机器资源分配,在保证系统正常运行的前提下,避免对机器资源的过度浪费。

7.1、依赖治理实践

依赖治理的一些基础概念

依赖模型分为关系、流量、强弱,实际的使用场景有:

  • 依赖关系:线上故障根源查找、系统降级、依赖容量、依赖告警、代码影响范围、系统发布顺序、循环依赖等。
  • 依赖流量:分配流量比、优化调用量、保护大流量。
  • 依赖强弱:线上开关演练,系统改造评估。

关系数据可以通过人工梳理、代码扫描、线上端口扫描的方式获取。流量数据可以通过分析调用日志的方式获取。强弱数据则必须通过故障模拟才能拿到。故障模拟分为调用屏蔽和调用延迟两种情况,分别代表服务不可用和服务响应慢的情况。依赖的级别分为应用级依赖和接口方法级依赖,两个级别的故障模拟手段完全不同,下面分开来描述。

应用级别强弱依赖检测

应用级别故障模拟比较做法有几种,即:修改代码,写开关,远程调试,填错服务的配置项。这几种方式对配置人要求相对较高,并且对应用代码有一定的侵入性,所以没有被我们采用。Linux有一些原生的命令(如iptables、tc)默认就有流量流控功能,我们就是通过控制linux命令来达到模拟故障的效果。命令举例:

iptables -A INPUT -s xxx.xxx.xxx.111 -j DROP

上面的命令表示:当前主机屏蔽掉来自xxx.xxx.xxx.11的网络包。

tc qdisc del dev eth0 root
tc qdisc add dev eth0 root handle 1: prio
tc qdisc add dev eth0 parent 1:1 handle 10: netem delay 6000ms
tc filter add dev eth0 protocol ip parent 1: prio 1 u32 match ip dst xxx.xxx.xxx.111/32 flowid 1:1

命令表示:在网卡eth0上面设置规则,对xxx.xxx.xxx.111的网络包进行延迟,延迟的时间是6000ms。

接口级别强弱依赖检测
理想情况下,我们希望确定任意一次远程方法调用的强弱,确定到接口方法级别的强弱数据。要想达到这个目的,就只能在通信框架和一些基础设施上面做文章。基于这个思路,我们设计了接口级别强弱依赖检测的方案。方案如下:

过滤规则配置组件(服务器端)
过滤规则配置组件提供一个web界面给用户,接受用户配置的屏蔽指令和测试机器IP信息,并把配置信息更新到配置中心组件中去。
配置的规则举例:

client|throw|xxx.ItemReadService:1.0.0.daily@queryItemById~lQA|java.lang.Exception
client|wait|xxx.ItemReadService:1.0.0.daily@queryItemById~lQA|4000

上面的规则分别表示在客户端发起对远程接口xxx.ItemReadService:1.0.0.daily的queryItemById~lQA调用时,在客户端模拟一次异常或延迟4000毫秒后调用。

配置中心组件

配置中心组件的主要作用是接受客户端(过滤规则配置组件)发来的配置信息,持久化配置信息到存储介质中,并实时把配置信息实时推送到配置中心的所有客户端(即每一个故障模拟组件)。此部分功能通过中间件开源产品Diamond实现。

分布式服务调用组件

发生RPC调用时,会传递一些调用信息,如:RPC发起者的IP、当前的方法名称、下一级调用的方法名称。

故障模拟组件

故障模拟组件是一个插件,可以被服务调用组件(HSF)加载。插件可以接受配置中心推送的配置信息,在服务调用组件发生调用前都比对一下据配置信息的内容,当RPC发起者的IP、调用方法都合条件的时候,发生故障模拟行为,从而达到故障模拟的效果。

7.2、容量规划实践

线上容量规划最重要的一个步骤为线上压力测试,通过线上压力测试来得知系统的服务能力,同时暴露一些在高压力场景下才能出现的隐藏系统问题。我们搭建了自己的线上自动压测平台来完成这一工作,线上自动压测归纳起来主要包含4种模式:模拟请求、复制请求、请求引流转发以及修改负载均衡权重。

模拟请求

完全的假请求,可以通过代码或者采用工具进行模拟,常用到的工具有http_load、webbench、apache ab、jmeter、siege等。模拟请求有一个很明显的问题,即如何处理“写请求”?一方面由于“写请求”的场景不大好模拟(一般需要登录),另一方面“写请求”将要面临如何处理一致性场景和脏数据等。模拟请求方式的压测结果准确性我们认为是最低的。

复制请求

可以看成是半真实的假请求。说它半真实,因为它是由复制真实请求而产生。说它是假请求,因为即使复制的真实请求,它的响应是需要被特殊处理的,不能再返回给调用方(自从它被复制的那一刻,它就已经走上了不真实的轨道)。复制请求同样可以通过代码实现(比如我们有通过btrace去复制对服务的调用), 此外也有一些比较好用的工具:比如tcpcopy等。如果想在nginx上做请求复制,可以通过nginx的nginx post_action来实现。“复制请求”模式被压测的那台机器是不能提供服务的,这将是一个额外的成本,此外复制请求模式的压测结果准确性也会由于它的半真实而打上折扣。

请求引流转发

完全真实的压测模型,常用于集群式部署的web环境当中。我们对于apache和nginx的系统基本上都采取这种方式来做线上压力测试。用到的方式主要通过:apache 的mod_jk和 mod_proxy模块;nginx的proxy以及upstream等。这种方式压测的结果准确性高,唯一的不足是这种方式依赖系统流量,如果系统流量很低,就算是将所有的流量引到一台机器上面,仍不足以达到压测目的。请求引流转发模式的压测结果准确性高。

修改负载均衡权重

同样为完全真实的压测模型,可以用于集群部署的web环境中,也可用于集群部署的服务类系统。在web环境中我们通过修改F5或者LVS的机器负载均衡权重来使得流量更多的倾斜到其中的某一台后者某几台机器上;对于服务类系统,我们通过修改服务注册中心的机器负载均衡权重来使得服务的调用更多分配到某一台或者某几台机器上。修改负载均衡权重式的压测结果准确性高。

系统的服务能力我们定义为“系统能力”。在系统机器配置都差不多的情况下,系统能力等于线上压力测试获取的单台服务能力乘以机器数。在得知了系统能力之后,接下来我们需要知道自己的系统跑在怎么样的一个容量水位下,从而指导我们做一些决策,是该加机器了?还是该下掉一些多余的机器?通常系统的调用都有相关日志记录,通过分析系统的日志等方式获取系统一天当中最大的调用频率(以分钟为单位),我们定义为系统负荷;当前一分钟的调用频率我们定义为当前负荷。计算系统负荷可以先把相关日志传到hdfs,通过离线hadoop任务分析;计算当前负荷我们采用storm的流式计算框架来进行实时的统计。

水位公式

系统水位 = 系统负荷 / 系统能力;当前水位 = 当前负荷 / 系统能力。

水位标准

单机房(70%);双机放(40%);三机房(60%)。
单机房一般都是不太重要的系统,我们可以压榨下性能;
双机房需要保障在一个机房完全挂掉的情况下另一个机房能够撑得住挂掉机房的流量;
三机房同样需要考虑挂掉一个机房的场景后剩下两个机房能够撑得住挂掉机房的流量。

机器公式

理论机器数 = (实际机器数 * 系统负荷 * 系统水位)/ (系统能力 * 水位标准)
机器增减 = 理论机器数 – 实际机器数

7.3、稳定性平台双11准备与优化

强弱依赖检测面临的最大挑战就是如何使用户使用方便,接入成本最小,主要需要解决下面两件事情:

  • 如何复用现有的测试用例?
    我们开发一个注解包,里面封装与CSP的交互协议。服务器端完成测试环境的管理,测试用例端专注应用系统的验证。这是一种测试平台无关的方式,不需要修改现有的测试代码,只需要配置注解的方式就使测试用例支持了强弱依赖验证的功能。
  • 如何解决故障模拟组件覆盖不全导致的验证局限?
    依赖调用一定存在client和server端,很有可能出现一端没有安装故障模拟组件的情况。为此,我们改造了故障描述协议,增加了client和server两种模式,只要client或server有一方安装了故障模拟组件就可以完成强弱依赖校验。

小结

稳定性平台通过依赖治理、容量规划、降级管理、实时监控等手段,对阿里各系统稳定性的治理给予了支持。未来我们将继续深挖稳定性这个领域,汇总各种数据,真正做到稳定性的智能化、自动化。

时间: 2024-08-03 15:30:46

中间件技术及双十一实践·稳定性平台篇的相关文章

中间件技术及双十一实践·软负载篇

软负载--分布式系统的引路人 综述 软负载是分布式系统中极为普遍的技术之一.在分布式环境中,为了保证高可用性,通常同一个应用或同一个服务的提供方都会部署多份,以达到对等服务.而软负载就像一个引路人,帮助服务的消费者在这些对等的服务中合理地选择一个来执行相关的业务逻辑. 1.1.ConfigServer ConfigServer主要提供非持久配置的发布和订阅.07/08年间在淘宝内部开发使用的时候,由于ZooKeeper还没有开源,不然可能会基于ZooKeeper来进行改造.主要使用场景是为分布式

中间件技术及双十一实践·服务框架篇

分布式服务框架--分布式服务的组织者 综述 06/07年以后,随着淘宝用户数量和网站流量的增长,应用系统的数量和复杂程度也急剧增加.诸多前台系统都需要使用一些公共的业务逻辑,这些业务逻辑通常具有共性的东西,比如,获取用户信息或查询宝贝详情等.如果将这些业务逻辑在各个系统内部都实现一遍,则大大增加了开发成本和后期维护成本.于是,像服务框架这类的中间件产品就应运而生.服务框架帮助各个系统将那些相似的业务逻辑抽离出来,单独部署,而前台系统在需要调用这些业务逻辑时,只需要通过服务框架远程调用即可,大大节

蚂蚁金服高级技术专家李福喜 :蚂蚁开放平台技术路线及行业实践

8月30-31日20:00-21:30,一场别开生面的技术大会-- "蚂蚁金服&阿里云在线金融技术峰会"将在线举办.本次将聚焦数据库.应用架构.移动开发.机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践. 蚂蚁金服&阿里云在线金融技术峰会专题:https://yq.aliyun.com/activity/109 峰会统一报名链接:http://yq.aliyun.com/webinar/join/38 来自蚂蚁金服的高级技术专家李福喜 ,将

大数据时代结构化存储云HBase技术架构及最佳实践

在10年,阿里研究HBase,是为了解决阿里容量及并发的实际问题,按照数据库要求,阿里深入HBase技术,并致力于保障稳定性和性能,目前已经有10000台规模,数百个集群,大约1亿的QPS,服务整个集团的业务.17年,把这部分能力也开放给公有云客户.本文中,阿里云高级专家封神带来了主题演讲<大数据时代结构化存储云HBase技术架构及最佳实践>,介绍HBase的应用选择.实战案例.技术平台解读以及后续的规划. 为什么应用HBase 一般而言,传统关系型数据库面临着成本.容量.QPS.分析等多方面

Aliware-MQ消息队列技术架构与最佳实践

在阿里云生态日,阿里巴巴中间件产品专家不铭分享了<Aliware-MQ消息队列>.他从功能特性.技术架构.最佳实践.案例分析四个方面进行了分享.在分享中,他主要介绍了Aliware-MQ的线性扩展技术.存储模型.负载均衡.数据流.刷盘策略.高可靠/高可用方案进行了介绍,并通过案例进行了具体实践分享.   以下内容根据直播视频整理而成.   功能特性 Aliware-MQ是什么?它是企业级互联网架构的核心产品,基于高可用分布式集群技术,支持海量高并发,支持万亿级消息流转(双十一的万亿数据),支持

基于中间件技术的多层分布式系统的研究

1 引言 分布式系统的信息处理分布在许多计算机上而不是局限在单一机器上.目前一般类型的分布式系统体系结构可以分为两种.一种是客户机 / 服务器( C/S )体系结构,它由客户端提供用户界面.运行逻辑处理应用,而服务器接受客户端 SQL 语句并对数据库进行查询,然后返回查询结果.C/S 结构曾给人们带来许多便利,但随着业务处理对系统提出更高要求以后,它也逐渐暴露出其客户端逐渐庞大和服务器负担过重的缺点,如灵活可扩展的工作流定制.保证数据在网络传输的稳定性和准确性.应付峰值数据的高负荷处理和平衡负载

阿里专家倪超:支撑海量用户的阿里中间件技术

大流量高并发互联网应用实践在线峰会官网:https://yq.aliyun.com/activity/112 峰会统一报名链接:http://yq.aliyun.com/webinar/join/49 议题名称:<支撑海量用户的阿里中间件技术> 议题简介:伴随着互联网和移动互联网的盛行,海量的用户一次又一次的洗礼了各个机构的IT系统,而在阿里,这种改变无疑更加频繁与剧烈--这些年下来,中间件技术完成了从1.0到3.0时代的蜕变,并已经完成了将技术变成商业化产品,与业界分享.本议题将围绕这一变革

基于DotNet构件技术的企业级敏捷软件开发平台 - AgileEAS.NET - 文章汇总及学习指南

一.AgileEAS.NET平台简介 AgileEAS.NET平台是一套应用系统快速开发平台,用于帮助中小软件开发商快速构建自己的企业信息管理类开发团队,以达到节省开发成本.缩短开发时间,快速适应市场变化的目的,AgileEAS.NET应用开发平台包含基础类库.资源管理平台.运行容器.开发辅助工具等四大部分,资源管理平台为敏捷并行开发提供了设计.实现.测试等开发过程的并行. AgileEAS.NET平台基于软件过程改进以及构件化快速开发两方面达到这方面的目标,在软件过程改进实践方面,提出了独有的

CSDN云计算俱乐部:Hadoop技术开发与应用实践分享

大数据的火爆已不容置疑,在本次Hadoop技术开发与应用实践分享会上,加座.站票已经完全解决不了问题,工作人员不得不临时设立两个会场,满足更多参会人员与讲师面对面沟通的机会. 本次CSDN云计算俱乐部邀请到了Hadoop大数据红象云腾公司创始人童小军.上海宝信高级工程师汪振平及智联招聘高级工程师李尤,对Hadoop与大数据上的实践做出了深度分享. 童小军:Hadoop原理.适用场景及核心思想 童小军,EasyHadop 社区创始人.原暴风影音平台研发经理:国内首位获得美国Cloudera公司Ap