弹性计算架构、容量性能数据库优化,让双11有惊无险

全面赋能,双11电商解决方案上新,全新75折:https://www.aliyun.com/solution/ecommerce/act/huhang1111


9月23日由阿里云主办的第六期《电商大咖直播:备战双11最佳实践》线上分享圆满结束,来自袋鼠云的联合创始人CTO宁海元分享了天猫双11的技术保障,阿里云弹性计算的架构,袋鼠云进行容量规划、性能压测、数据库优化的经验。

本次视频直播的整理文章整理完毕,如下内容。


袋鼠云简介

袋鼠云由多名前阿里云资深技术专家创立,核心员工来自阿里巴巴、神州数码、数梦工场等,作为阿里云重要的合作伙伴,专注于为企业客户提供云计算和大数据技术服务及产品。袋鼠云是阿里云数加平台首个金牌合作伙伴,也是阿里云认证的区域服务商和云市场供应商。

天猫:“双十一”的技术保障

天猫的技术保障分为三层:后勤保障、组织保障、系统保障,每个环节都是非常重要的。

天猫的技术也经历了不断的演进。最初面对的最大问题是流量问题,CDN成为了第一个瓶颈,进行了CDN扩容。之后,逐渐经历了全链路压测、单元化、同城双活、异地多活、弹性混合云。在技术上,越来越游刃有余的支撑天猫的大促,同时也会把这些沉淀下来的技术变成产品给阿里云的客户提供服务。

阿里云:弹性计算与大促

弹性是云计算的最大优势,大促是最典型的弹性场景。从官网上看,阿里云包括四大产品线:云计算基础产品线、大数据产品线、云安全产品线、运维和虚拟组件产品线。经常用到的产品如上图所示,比较常见的有负载均衡、云服务器、云数据库等。比较少见的,比如性能测试PTS在做大促的时候是一个非常重要的工具,因为它可以通过分布式的压测工具去以最大的能力压测我们能达到的最大压力。在安全方面,DDos高防IP可以防几十G以上的流量的DDos攻击。当一台数据库达到上限的时候,分布式数据库DRDS可以使压力线性扩展。

上图是阿里云弹性系统的一个典型架构。从用户的角度,他会把流量打到负载均衡上,通过DDos高防IP使得只有正常的流量可以进入负载均衡。在负载均衡后面后一个可以弹性伸缩的ECS应用服务器,其中要注意的一点是所有数据要设置成无状态。云数据库Redis版可以缓存一些不需要更新的数据,云数据库的RDS可以即开即用,如果压力过大时可以改为分布式数据库DRDS,同时可以做一些读写分离。

安全也是阿里云一个非常重要的能力。高防IP可以提供20G以上防护带宽,防DDos攻击、cc攻击、Web攻击,防网页篡改。

袋鼠云:大促活动护航服务

前期架构改造时会做一些架构咨询。从早期的容量规划到性能压测、应用优化、数据库优化,再到扩容、应急预案准备、大促当天在线应急保障。

容量规划

我们首先要看的是整个的业务目标,业务目标里面是否有一些特殊的场景,比如秒杀的场景。有了业务的目标之后,我们就能定出技术目标,比如QPS和TPS的目标,秒杀应该用什么样的方案,在线应该重点关注哪几个场景。

性能压测

确定了容量规划的指标之后,我们就可以做压测了。阿里云PTS是全球领先的SaaS性能测试平台,具有强大的分布式压测能力,可模拟海量用户真实的业务场景,让应用性能问题无所遁形。经过几次的压测之后,就会对上线之后的性能表现有了预估。

数据库优化

优化思路:数据库里80%的场景可能因为SQL语句写的不好,比如索引没有用上,表结构存在问题,所以应该对SQL进行优化。RDS是存在配置问题,所以应该对RDS进行配置升级。如果有数据分析的需求,最好在当天开一个只读识别,一个RDS可以开5个只读识别,进行读写分离保证主库的交易更加顺畅。垂直拆分和水平拆分在大促之前通过压力测试决定是否去做。

总结来说,大促会遇到以下几个常见问题:

  • 最典型的是容量预估不足,系统直接崩掉;
  • 临时出问题,临时改代码,结果出大问题;
  • 秒杀导致数据库挂,系统挂;
  • 缺乏应急方案,缺乏应急流程和具体的执行步骤;
  • 缺监控平台,缺实时的应用/数据库指标监控,不知道系统大促的整体情况;
  • 数据库是关键点,出问题需要快速决策和执行。

应急预案实例

在双11的的前一个月,需要把面对各种情况的预案写下来,发给相关的责任人。

客户案例

某社区电商大促

提前一周开始做紧张的压测,效果不错。

7:00:当天大促的活动慢慢开始,流量开始上涨。

9:00:第一波秒杀开始,出现大量connection
timeout,连接数全部爆满,客服接到大量投诉电话,投诉秒杀是个骗局。系统表现上,应用压力非常高,数据库大量锁等待,数据库跑不动。

9:30:应用扩容,数据库优化。

10:00:第二波秒杀继续,数据库还是大量的锁等待,系统挂掉。

持续的修改代码,数据库优化,商品调整。。。

13:00:秒杀稳住了,系统平稳。

该案例中主要做了数据库优化、SQL的优化,扩容。

某跨境电商大促

2016年3月大促,蜂拥而来的流量造成系统宕机,每秒订单量到达峰值。袋鼠云进行了如下优化:云架构优化,帮助客户减少不必要的云资源支出,节省了大量成本;数据库SQL与索引优化,解决了宕机的根本性问题,轻松应对大促;重新设计的可扩展架构,确保在未来的业务增长过程中,技术不再成为瓶颈;数据库专家包年服务,7*24监控数据库性能状况,及时响应和优化,大大降低了客户的DBA运维成本,又确保了数据库的稳定。



相关系列文章:

  • 第五期:《会员通、服务通、商品通、营销通,全域大数据解决方案有秘诀》
  • 第四期:《银泰网上云之路引发混合云关键考虑》
  • 第三期:《架构分析、数据整合、负载均衡,梦想旅行解析云上实践》
  • 第二期:《弹性升级诀窍分享:让双11来的更猛烈些吧》
  • 第一期:《战前、战时、战后,百胜全天候为双十一护航》
时间: 2024-11-01 10:40:30

弹性计算架构、容量性能数据库优化,让双11有惊无险的相关文章

新一代数据库技术在双11中的黑科技

分享嘉宾: 张瑞:阿里巴巴研究员,阿里集团数据库技术团队负责人,经历阿里数据库技术变革历程,连续六年作为数据库总负责人参与双11备战工作. 双11是一场技术大练兵,是互联网界的超级工程.需要做到支撑尽可能高的零点峰值,给用户最好的体验:也要做到成本尽可能低,要求极致的弹性能力:还要做到整体系统的稳定.   数据库如何实现极致弹性能力 数据库上云 数据库实现弹性是比较难的,数据库对性能要求非常高,因此,必须实现数据库上云,但是如何上云呢? 数据库上云面临以下几个难点: 1.         数据库

百万用户级电商云上Oracle架构设计与数据库优化

客户介绍: 某电子商务平台自2015年9月份对外提供服务,已在阿里云上稳定运行1年多,近期业务量突增. 据了解,此平台是一个会员制的在线交易平台,业务正在不断上升中,发展形势一片大好的同时,前端应用和后端数据库的压力却越来越大. 目前,该平台国内注册会员用户数已达数百万级别,有上百万的商品数量,在业务高峰期间一小时内可能会达到数万笔交易. 问题分析: 然而,由于应用设计和数据库没有充分优化的问题,导致数据库不堪重赋,CPU一直满负荷运行,整个平台运行缓慢,长此下去,会严重缩减客户数量,故需立即对

阿里流计算平台开发实例之电商双11实时计算

由于之前没写过博客之类的文章,所以这次写也是心中揣揣,也是由于这个项目间没有找到相关的一些文档,当时就想着完成后写一个出来,如果有写的不周到的地方,请联系我改正,谢谢. 一. 项目案例 用户商业模式含盖电商零售与加盟店批发零售,本次主要业务需求在于淘宝双11期间能实时计算用户所关注的一些指标数据,如:订单数.订单金额.商品SKU数.订单来源地.商品排名等等. 基于这些指标需求,除了要达到实时的要求以外,还需要具备适当的展现图设计,本次使用的是阿里云的DATAV,提供饼状图占比分析.商品与类目数据

弹性升级诀窍分享:让双11来的更猛烈些吧

全面赋能,双11电商解决方案上新,全新75折:https://www.aliyun.com/solution/ecommerce/act/huhang1111 9月23日由阿里云主办的第二期<电商大咖直播:备战双11最佳实践>线上分享圆满结束,来自网店管家的CEO刘义分享了弹性升级在电商大促中的应用. 本次视频直播的整理文章整理完毕,如下内容. 关于网店管家 网店管家是电商ERP系统.网店管家的产品体系如上图所示.早年的电商ERP是整个订单的全链路的处理,即从订单的下载到订单的审核.财务的审核

【干货】阿里资深技术专家丁宇谈双11高可用架构演进之路

近日Velocity China 2016在京举行,会上阿里中间件技术部资深技术专家丁宇(花名叔同)发表了题为<零点之战–阿里双11高可用架构演进之路>的演讲.丁宇从2009年开始,参加了每年的阿里双11技术保障工作, 最近两年他分别以共享平台事业部双11项目负责人,和集团双11项目稳定性总负责人的身份参与其中. 阿里巴巴平台的业务规模在过去的8年呈指数级增长,给双11所带来的技术挑战是世界性的,特别是如何在零点峰值到来时确保系统的稳定性.零点技术挑战的本质是用有限的成本去实现最大化的集群整体

2016阿里云数据库双11复盘-自动化备战,0干预

前言 2016年天猫双11购物狂欢节已经完美落下帷幕,高峰期间订单创建每秒达到了16.5万笔,RDS集群的QPS最高达到了400W,其中99%的商家订单在阿里云云数据库服务中完成存储和处理.这是RDS连续第五年支持天猫双11大促,在持续高压力冲击下,整个双11期0故障0丢单,相比前面四年,我们在备战过程中更加的自动和主动,今年双11高峰期间做达到了0干预的目标.这些都是在前期充分的准备工作中所换来的从容,在面对这么大规模实例备战的时候,通过前几年备战经验的积累,我们在产品自动化上继续深挖,主动推

九年双11云化架构演进和升级,打造更加完美的双11

12月13-14日,由与阿里巴巴技术协会共同主办的<2017阿里巴巴双11技术十二讲>顺利结束,集中为大家分享了2017双11背后的黑科技.本文是<阿里巴巴云化架构创新之路>演讲整理,主要讲解了双11的技术挑战与突破.云化架构演进的背景.统一调度和混部的挑战.Pouch容器和容器化的进展.双11的未来技术发展路线.内容如下. 分享嘉宾:   叔同(丁宇),阿里巴巴资深技术专家,8次参与双11作战,阿里高可用架构.双11稳定性负责人,阿里容器.调度.集群管理.运维技术负责人.   叔

双11稳定性负责人叔同讲述:九年双11的云化架构演进和升级

今天,我们邀请了阿里巴巴资深技术专家叔同,分享九年双11的云化架构演进和升级. 叔同(丁宇),阿里巴巴资深技术专家,8次参与双11作战,阿里高可用架构.双11稳定性负责人,阿里容器.调度.集群管理.运维技术负责人. 叔同:大家好,我是叔同,很高兴与大家分享阿里双11的技术发展.今天我们先来关注一个问题:双11推动了阿里技术的进步,它有哪些挑战? 1.互联网级规模,每天有数亿人在阿里网站上进行交易: 2.企业级复杂度,每完成一笔交易都需要数百个系统的服务支撑: 3.金融级的稳定性,每一笔交易都必须

历年双11实战经历者:我们是如何做数据库性能优化及运维-CloudDBA和天象

8月24日阿里云数据库技术峰会上,阿里云高级DBA专家玄惭带来面对超大规模的数据库集群,尤其是在每年像双11这样重大促销活动中,阿里云是如何进行运维和优化的.本文主要介绍了天象和CloudDBA两个产品,包括他们的起源.基于系统画像仓库的应用.产品化等,最后对RDS产品的可诊断性建设和可运维性建设作了补充.   随着云数据库时代的到来,它的运维体系不仅仅包括保持数据库集群的稳定,同时我们还要关注用户体验.在业务上,体量大,用户各类,例如有公有云小客户,也有企业大客户,每类客户的需求都各式不一,众