阿里云数据库专家玄惭:云数据库超大流量峰值保障最佳实践

大流量高并发互联网应用实践在线峰会官网:

峰会统一报名链接:


议题名称:《云数据库超大流量峰值保障最佳实践》

议题简介:本次演讲收集整理了自RDS成立至今,在历次大流量峰值中如何保障活动中云数据库备战的最佳实践,包括之前的改造,压测和扩容;期间的监控,预案执行和应急处理;之后的收容和总结。力求全链路地帮助客户安全稳定地渡过超大流量峰值,让在你备战过程中少走一些弯路,多一些从容。

听众收益:

1)了解历次超大流量峰值时云数据库备战保障中出现过程的问题;

2)掌握历次超大流量峰值时云数据库备战保障的最佳实践

关于分享者

罗龙九(花名:玄惭),阿里云DBA专家,有着丰厚的DBA经验,经历阿里历年双11考验,负责阿里云RDS线上稳定以及专家服务团队,积累了6年对阿里云数据库用户的运维、调优、诊断等丰富的经验。

更多峰会议题,请参见官网:


采访正文:

说到大流量高并发互联网应用实践,就不得不提下阿里云DBA核心专家玄惭。他在数据库领域,连续4年支持天猫双11。

其所在团队的亮眼成绩如下:

高峰期间集群的总QPS达到了近300W每秒;

单个商家最高处理订单的能力超过400万单;

百万商家在AliCloudDB上稳定运行,全网实现了0故障,0丢单。

这样的成就,在当初是如何实现技术突破的?

“2012年双11备战,记忆犹新。双11的前一个月,阿里云数据库团队白天要准备资源和双11所有工作,夜里还需要协助用户将数据库迁移上云。弹性升级需要对实例逐个进行升级,商家的数据库也需要逐个进行优化,并为商家提出优化建议。天猫双11能否扛过零点高峰?我的心里是打鼓的,但结果让我们深受鼓舞,完全OK。”在采访中,玄惭说。

他说,2013年主要是指数增长和数据链路改造迁移。“2013年是阿里云数据库支撑双11商家后台核心数据库的第二年。其承担了天猫50%的订单量。如果用一个关键词来形容2013年的双11,那就是变化。第一年双11实例规模量不是很大,然而2013年的双11实例数规模则是成指数级别增长。原来的数据访问链路层的容量已经不能再支持如此规模的用户量。所以我们开始对数据链路访问层进行改造迁移。改造迁移过程的时间点与双11的备战时间点重合,由此触发了非常多的变化,给双11的备战工作造成了很大的压力。一路拼搏,终于在双11之前把链路架构稳定下来。双11当天,记忆尤深的是下午6点左右出现的惊心动魄的场面。由于一个用户发送了超大长度的SQL到阿里云数据库,同时由于Proxy本身问题,所以整个proxy集群出现异常。虽然问题很快得到了处理,影响可控,但给我们敲响了警钟——2014年要重点把数据链路中间层稳定下来。”

“2014年的双11,阿里云数据库在经历了两年的成长期之后开始迎来成熟。汲取了2013年数据链路改造的惨痛教训,我们在双11前统一了所有集群的数据链路访问。在支持灵活数据链路访问模式,高安全链路访问模式下,实现了SQL注入的拦截功能,帮助用户更简单地防护数据库的安全,避免数据库被注入攻破。双11当天表现平稳。承担了天猫96%的订单量。集群QPS峰值达到142W。集群RDS实例数也达到了历史新高。”2014年是已经趋于稳定的一年,玄惭点评到。

“2015年集群的规模越来越大,双11我们为集群预备了2-3倍容量资源供用户弹性升级使用。为了使新上线的机器得到资源最大化利用,以保障系统的稳定,需要将老机器上的实例离散到新机器上。同时双11活动完后我们需要把这一批扩容的主机下线,将其补充到其他业务集群进行售卖,以实现资源利用率最大化。针对上面的两个应用场景,RDS启动了移山项目。移山离散策略着力于对主机以及实例最近的性能数据进行计算,得出需要迁移离散的实例列表。移山收容策略则对集群和主机的性能数据进行计算,进而得出需要收容的主机实例列表。”

这四年的双十一支持,也让他沉淀下来不少经验。

他认为,安全和稳定是一个全链路的事情,从客户的应用端访问,到中间链路层,最后到底层的数据存取,要构建一个安全和稳定体系十分复杂。“以ApsaraDB MySQL安全能力的构建思路与方法,安全的问题需要从事前、事中、事后三个时间轴,以及存储层、网络层、访问层、应用层四个层面,立体化地构建解决方案。于企业而言,不同的数据需要不同安全策略。”

他建议,对于一些安全程度要求较低的数据,对应的安全策略是:配置了HA高可用;每月一次验证备份的可靠性,备份保留30天;同时关闭公网访问或者采用VPC、IP白名单;涉及到用户隐私的高级数据,云数据库的安全策略进一步升级:首先云数据数据库密码是1-3月更换一次;同时打开TDE加密;数据备份全部存储在OSS中,可保留90天之久;此外数据库还应该支持同城容灾。对于核心数据而言,云数据库首先在应用层加密,支持SSL加密传输,备份可保留720天,同时支持跨地域容灾和两地三中心的部署方式(详细可参考“你的数据在云上,安全吗”)。

在稳定性上,玄惭补充到:“复杂的系统的稳定运行离不开两个必不可少的系统,即全链路的监控系统和巡检系统。”巡检系统帮助你把系统各个组件日常运行过程中出现的问题暴露处理,把问题消灭在萌芽阶段,防范于蔚然,巡检规则需要你不断地去完善,这需要一个过程;全链路监控系统帮助管理者能够清晰地判断问题出现在那里,系统的各个部件清晰地展示在你的面前,当问题发生时候能够快速定位问题,降低故障出现的时间。他认为,特别是在复杂的系统中,有十几二十多个部件,没有全链路的监控系统,根本就无法掌控。

而在一名优秀的DBA如何修炼上,他认为责任和敬畏心非常重要。

玄惭称,具备责任心和敬畏心是优秀DBA的基础,“一个企业最宝贵的资产在你手上,必须要具备这些要素。”其次,处理线上的故障时,需要有大心脏去扛住外界的压力,同时还需要细心,让你在复杂多乱的环境下抓住问题的本质,快速解决问题;“最后,还需要有一个乐于总结分享的心态,我见到很多业界Top专家都具备这个特点。”

玄惭在本次技术峰会上分享的是《云数据库超大流量峰值保障最佳实践》议题,该议题收集整理了自RDS成立至今,在历次大流量峰值中如何保障活动中云数据库备战的最佳实践,包括之前的改造,压测和扩容;期间的监控,预案执行和应急处理;之后的收容和总结。力求全链路地帮助客户安全稳定地渡过超大流量峰值,让在你备战过程中少走一些弯路,多一些从容。

这位经过四年双十一沉淀的阿里技术专家还表示,这个议题对开发、运维、DBA、架构师都具有非常好的参考指导意义,“当然如果你是一个公司的技术负责人,我也希望你能够学习。”

时间: 2024-11-02 06:12:44

阿里云数据库专家玄惭:云数据库超大流量峰值保障最佳实践的相关文章

云服务器 ECS安全:高级安全Windows防火墙概述以及最佳实践

高级安全Windows防火墙概述以及最佳实践 简介 在Windows NT6.0之后微软推出了高级安全Windows防火墙(简称WFAS),高级安全Windows防火墙是分层安全模型的重要部分, 通过为计算机提供基于主机的双向网络通讯筛选, 高级安全Windows防火墙 阻止未授权的网络流量流向或流出本地计算机.高级安全 Windows 防火墙 还是用网络感知,以便可以将相应安全设置应用到计算机连接到的网络类型.Windows 防火墙和 Internet 协议保护 (sec) 配置设置集成到名为

顶级风控专家William Yao: 人工智能在美国银行的最佳实践

在昨日由前海联控.创大资本.前海梦工场联合举办的前海国际科技创新峰会期间,全球个人信用风险评估体系的缔造者,全球领先的预测分析和决策管理公司FICO的早期创始成员,前花旗银行.汇丰银行.陆金所等国际级金融机构首席风控官William Yao(姚志平)博士分享了"人工智能.金融科技在美国银行的最佳实践". 姚博士表示,美国的银行利用机器学习等人工智能技术用得很深,用人工做决策的已经比较少,但是,国内却停留在"talk-the-talk"层面,应用实践更多是浮于表面,并

高人自有妙计:罗龙九六招制服云数据库大流量峰值

在9月20日-21日举办的大流量高并发互联网应用实践在线峰会上,阿里云数据库专家罗龙九(花名:玄惭)分享的主题是<云数据库大流量峰值保障最佳实践>,他结合历年双十一活动中云数据库保障经验,从弹性扩容.访问链路.架构设计.高可用配置.性能优化.参数优化六个方面详解讲解云数据库大流量峰值保障的最佳实践.  以下为在线分享观点整理. 弹性扩容 多数用户在双十一到来之前都会进行弹性扩容,常见的弹性扩容分为两类:本机升降级和跨机升降级.例如现在有一个6G/6C的RDS数据库想要升级到12G/12C,如果

“玄惭大师”谈双十一活动中云数据库保障经验

对不少商家而言,双 11 销量往往是平时的N倍. 云数据库如何从容应对双 11 当日的流量高峰? 今天,特别邀请到 ApsaraDB 团队的大牛级人物玄惭和大家分享,结合历年双十一活动中云数据库保障经验,从弹性扩容.访问链路.架构设计.高可用配置.参数优化等五个方面详解讲解云数据库大流量峰值保障的最佳实践. 玄惭被誉为双 11 护航老司机.过去五年,他一直负责天猫双 11 项目的数据库运维,0 故障,0 丢单. 1.弹性扩容的两种方式 多数用户在双十一到来之前都会进行弹性扩容. 常见的弹性扩容分

成功云企业遵循的十项最佳实践

Stephen Orban现任AWS企业市场战略总监.在加入AWS之前,他是道琼斯全球CIO,负责领导道琼斯集团的信息技术战略和实施.Stephen在道琼斯内部率先倡导了"云优先"的战略,帮助道琼斯集团全面采用云服务,"All-in-AWS".以下是Stephen Orban总结的在云旅程中应该了解的十项内容. Stephen Orban 史蒂文·奥本 AWS企业市场战略总监 今天的实践清单也可以被命名为<我在踏上云之旅程时所应了解的十项内容>.幸运的是

混合云模型管理最佳实践五大要点

对于认证考虑采用混合云模型的企业而言,其实现必须有计划,以便IT人员能够和现有私有云一样精准的进行管理.下面,我们给出了管理混合云的方式,假设IT团队遵循了企业ITIL最佳实践. 不管你如何小心的选择公有云服务,而且和你的私有云设计匹配的多么好,差异还是不可避免的存在.两个云之间的区别越大,就越难作为单一的实体管理这两个云.也会得到尽可能的延伸你的现有混合云管理战略和最佳实践的最大收获. 混合云管理战略应该涉及到下面的这些领域: 配置.IT团队必须细化创建.修改.不定和实现云安装的最佳实践.版本

阿里云数据库专家德歌告诉你PostgreSQL的那些事

什么是云栖神侠传: (http://yq.aliyun.com/?utm_source=yqdg),是阿里云面向开发者群体的开放型社区.在中,活跃着许多阿里技术大牛,他们在自己的技术领域都是佼佼者,具有一定的业界影响力.在社区,他们通过撰写技术博文.解答技术难题,为开发者贡献着自己的能量. 他们,就是的技术神侠! 他们之中包括: 数据库神侠:阿里云数据库专家 周正中(德歌).林晓斌(丁奇): Java开发及架构神侠:淘宝架构师 杨志宏(青霖): 微服务技术神侠:阿里巴巴高级技术专家 邱小侠(肥侠

你有什么理由还不选择阿里云服务器呢–从阿里云发布自研商用关系型数据库POLARDB想到的

最近几天,阿里云发布自研商用关系型数据库POLARDB的消息可谓是重磅炸弹啊.借用官方宣传的话就是:6倍性能于MySQL并100%兼容/100TB存储容量/2分钟创建只读副本/3分钟创建容灾实例,第三代分布式共享存储架构+软硬一体设计逻辑. 这话对于专业人士肯定容易理解,但很多非专业人士就不一定了,看上去很高大上啊,但一些"冷静"的人也许会有质疑:一是真有那么牛吗,二是对我有用吗? 本文试图用最直白的语言解释给非专业人士听听. 首先,MySQL,是一个开源数据库,前几年已经被甲骨文(O

阿里云双11访谈之云数据库

以下内容根据访谈视频整理而成. 阿里云数据库产品特性介绍 云数据库产品在阿里云集团里做了很多额外的工作和专研.在安全线上云数据库达到了很高的安全要求,引入了更多的硬件,在架构上.在代码层都做了很多的优化.相对于传统数据出来说,云数据库在稳定性和高可用上面达到了较高的技术上的提升.阿里云产品都有一个通用特性就是应用可以快速实现自动化,实现对实例级别的管理.监控,对程序的迁移.阿里云云数据库团队不仅在业界上是顶级的专家团队,在专业上也是属于国内顶级的水平,阿里云数据库为用户在云上的业务做保驾护航的工