双11幕后超级英雄:新一代运维的价值

“双十一”刚刚结束,其实最紧张的不是商铺理货,也不是网友紧盯大促商品准备秒杀,而是网购幕后的运维人员,他们最担心:什么网络中断、应用卡顿、响应速度慢,服务器宕机……

双十一作为电商 IT 部门的头等大事,大促前,运维人员就需要早早地做好多套预备方案,并时刻紧绷着神经,经历着上百次模拟演练。他们在后端有多少不眠不休的夜晚,不得而知。几年前,一场秒杀让服务器宕机是常态,现在,一秒数十万的订单,服务器依然坚挺。毫无疑问,支撑起这一切的是强有力的技术和运维人一个个不眠的夜晚。

看似简单的双十一背后牵扯到是包括支付、架构、数据库、网络、运维、电力、客服、物流等整个商业配套基础设施的协同和考验。

双十一大促的那些年 运维迈过的坑

天猫双十一大促最早开始于 2009 年,那时候还是淘宝商城,一天的 GMV 只有几千万,而且还没有零点全民疯抢的概念。在大促前工程师们基本上会根据各自的经验判断,比如服务器的当前负载、应用的当前 RT 和 QPS,判断每台服务器最大能支撑多少能力等,然后几个人讨论后就决策拍板,某某核心应用各自要加多少台服务器,到底要加多少服务器,实际上大家的心里没底,实在不放心临时再多申请扩容。总之这个阶段业务量也小,也能应付过去。

后来几年随着天猫品牌的提升,双十一大促逐年爆发,原来的运维方式已经无法适用。业务发展迅速,后端的应用数量也大大增加,各个应用系统之间的调用链路错综复杂。大促前到底要准备扩容多少资源?不能拍脑袋热,因为你申请资源太多会可能被拒绝,申请少了你要承担更大的风险。这时候用线上压测的方式来解决,比如可以直接在生产环境抽取 1 台服务器,通过模拟回放或者直接引入多倍流量做压测,根据压测结果计算出单台服务器的最大可承载能力,然后用数字来说话,去申请扩容。还有就是即使容量规划做到位了,但在零点峰值的时候还是可能会超出预期,系统还是会挤爆。所以又引入了限流和降级,限流就是对各个应用设置一个最大阈值,超过阈值就立刻拒绝新的请求,这样的好处就是保护应用,避免雪崩。还有就是降级,由于应用太多,在大促的期间,可以关闭部分非核心功能,保证交易主流程的能力最大化。那个阶段的压测也不是完全精确的,主要问题是压测的局限性,只是对某个应用做单独压测,但是应用之间是有依赖有关联的,特别是一些共享服务中心,基本上被所有应用都依赖调用,那怎么办呢?后来几年时间又研发出新的压测工具,全链路压测。这个对于容量规划来说,是全新的思路,直接在生产环境上通过模拟复制产生大批的流量,每个环节都会被压测到,并有相应的监控系统配套,来找出瓶颈点在哪里,并迅速优化。而且这个过程被自动化完成。

可见,自动化运维是大势所趋。

零点疯抢背后的运筹帷幄

现在的电商双十一大促活动仍旧延续零点疯抢模式,对于应用系统保障来说,能否顺利扛过前 15 分钟,甚至是前几分钟,成为最核心的保障任务。运维界大咖给出了以下几点建议:能否顺利扛过前 15 分钟,甚至是前几分钟,成为最核心的保障任务。具体给出了以下几点建议:

a. 容量规划。 尽可能在生产环境做压测,只有经历过压测,心里才会有底。

b. 关键应用要支持限流。 零点全民疯狂的流量很可能会超出预期,只有设置好限流才能保护好自身应用,否则出现雪崩式连锁反应。

c. 对非核心功能做降级。 每次双十一会投入大量的资源,基本会往核心交易类应用倾斜,那么非核心功能的降级一定程度上是可接受的。

d. 应急预案。 对可能发生的异常状况提前准备。

双十一大促是最典型的弹性场景

弹性是云计算的最大优势,而大促是最典型的弹性场景。

随着云计算特别是公有云的普及,现在的运维人员基本上无需关注机房、网络、操作系统等底层设施。在不断地演练后,如今的电商平台早已采用弹性可扩展的云计算平台,配合分布式数据,高效的 CDN 分发来实现负载均衡,避免在双十一凌晨高并发状态下崩盘。运维人员将更多精力转移到快速上线,快速迭代,去支持业务发展。

大促活动的流量跟日常完全不在一个量级,完全可以利用云资源的按需使用,来达到扩容的需求,而且在成本上是巨大的节省。除了扩容以外,当然还需要准备应急预案。整理出当天可能出现的异常情况,提前预演。

去年天猫双十一开场仅仅十分钟,世界支付纪录被再次刷新。支付宝公布的数据显示,在零点 9 分 39 秒,支付宝的支付峰值达到 12 万笔/秒,是前年的 1.4 倍,刷新了去年创下的峰值纪录。在支付方式的选择上,花呗和余额宝成为非常受网友欢迎的支付方式,笔数占比分别高达 29% 和 18% 。

经得起巨额交易,玩得起光速秒杀,技术系统抗得住,收益率流动性各种稳妥……只有经得起双十一的终极考验的才算是真正的神器!

智能运维要借助数据和算法才能实现

运维的发展阶段经历了从标准化、工具化、自动化、到现在初露端倪的智能化,每个阶段的发展都代表了生产力和效率的大幅提升,整个趋势是不可避免的。智能时代的运维不是要让运维人员失业,而是对运维效率的提高有着极大的诉求,比如如何在错综复杂的环境中快速定位问题、root cause、甚至是故障预测,避免发生故障,保障应用稳定性。

智能运维要借助数据 (运维数据) 和算法才能实现。首先运维能力的发展不是直接跳到智能运维阶段的,必然经过标准化、工具化、到自动化的发展过程,只有高度完善的自动化才具备基础能力。其次就是数据积累,需要大量的运维数据,可以是日志数据、网络抓包数据、数据库数据等等。还有日常运维产生标注的数据,比如出一次故障后,运维人员会记录下过程,这个过程会反馈到系统,反过来提升运维水平。最后就是算法,到底采用哪类算法模型做持续优化。

天弘基金在运维部门希望通过服务器性能日志采集分析,实时监控应用系统基础资源的使用情况,通过采集客户端 Agent 收集服务器和集群组件的 CPU、内存使用率,以可视化形式展示资源运行状况。

据悉,天弘基金云日志平台项目已开始进行内部推广,在系统正式运行期间得到了用户认可,对用户的具体价值体现在以下几个方面:

运维人员:数据脱敏功能帮助运维人员解放人力;采集资源管控功能可以防止 Agent 程序对服务器和应用产生影响,有效避免灾难性故障发生。

研发人员:日志查询功能可方便快捷的查询日志文件;调用链分析帮助研发人员快速定位故障原因和问题点,协助研发团队优化系统代码并进行架构治理。

业务人员:监控告警功能可及时发现业务故障,最大程度上降低故障响应时间,提升用户服务体验。

管理人员:智能运维可实时掌握服务资源运行情况,并能够预测集群水位,提供基础资源扩容建议。

写在最后

除去上述,所有运维团队还需要提前制定值班计划,对双十一当天可能发生的各种突发情况预案,双十一各时段应该关注的关键点进行详尽计划。总之,每年双十一都是一次检验,一次大考。细节决定成败,对全体运维人而言,必须所有细节都关注到,演练到,准备到,才足以从容应对每一年的双十一大促。

截至 11月 12 日零点,2017 年天猫“ 双十一 ”交易额定格在 1682.69 亿元人民币。不断创新高的销售额、交易峰值、支付峰值,这些惊人数字的背后倚仗的是怎样的技术体系?智能化正逐渐走入 IT 行业乃至社会生活的各个方面。未来,利用大数据关联分析与机器学习技术为运维系统赋予人工智能,提供从故障预防到故障定位、再到故障闭环的智能保障能力。或许到那个时候,运维工程师也可以轻松玩转双十一,妥妥的购物买买买啦!

优云新一代运维PaaS平台免费使用:www.uyun.cn

时间: 2024-09-08 16:37:40

双11幕后超级英雄:新一代运维的价值的相关文章

优云,新一代运维PaaS平台

如果需要了解优云全线产品,可登陆官方网站(www.uyun.cn)进行注册,--免费试用SAAS版. 北京广通信达软件股份有限公司创立于2003年,是国内创新型的IT运维软件开发商和运维服务提供商,公司于2015年在全国中小企业股转系统挂牌上市(简称"广通软件",股票代码:833322). 2016年,广通软件率先在业内传播"双态运维"的理念,推出全新一代运维品牌-优云,针对企业级运维市场,创新化的的提出 "软件定义运维"与"运维Paa

飞天技术汇 - 阿里云技术大牛为您揭秘双11幕后的技术保障

飞天技术汇 - 阿里云技术大牛为您揭秘双11幕后的技术保障 年年"双11"买买买,但是您了解双11幕后的技术故事吗?数以亿计的峰值检索请求,高并发的购买订单管理,花样繁多的红包和折扣信息比对,海量的库存和物流信息处理,这一切的背后都有阿里云的影子.11月18日,我们为您邀请到了阿里巴巴双11项目阿里云核心技术团队的弹性计算高级技术专家祝犁.存储高级开发工程师姜琦和数据库高级开发工程师凌洛,在北京望京阿里中心为您详细解读阿里云如何为阿里巴巴双11全球购物狂欢节提供技术支撑和保障服务. 时

运维决定价值 四川农信社如何支撑4万员工的IT管理?

随着信息系统与业务系统融合进程的逐步深入,IT运维管理在传统企业发展中担负起的角色越来越重要.在努力提升IT管理服务水平的同时,IT运维管理为企业提供的价值最终体现在了业务的快速响应和有序管理之上.不久前,四川省农村信用社联合社就通过不断地创新.升级.发展IT运维管理,从而以高效高质的能量支撑起4万员工的IT服务业务. 大需求的背后BMC Remedy显神通 据四川省农村信用社联合社信息科技中心官元军副总经理介绍,四川省农村信用社联合社(以下简称四川农信)成立于2005年,它起源于四川农村,十年

云霁科技联合数百家金融企业助力新一代银行运维系统建设 —— OSCAR即将发布“银行业信息科技运维系统要求”

2016年12月2日,"云计算开源产业联盟(OSCAR)将在北京民族饭店召开2016年年会,披露多项重量级工作成果.业界关注已久的"银行业信息科技运维系统要求"标准初稿将正式发布.该标准由云霁科技牵头编写,是正在中国通信标准化协会(CCSA)立项的协会标准."银行业信息科技运维系统要求"旨在助力银行业应对云计算.大数据时代的新要求和新挑战,为银行打造新一代运维系统建设提供科学参考,驱动金融行业网络技术升级,是团体标准的示范和典型. OSCAR是业界首个专注

优云蒋君伟:自动化运维成本仍然很高

9月10日-11日,上海光大国际会展中心隆重举办了"2017上海站CNUTCon全球运维技术大会".本次大会的主题是"智能时代的新运维",各个公司为观众带来了他们关于该主题的思考,并分享了他们的实践经历.InfoQ有幸邀请了杭州优云软件有限公司的产品副总裁蒋君伟老师接受我们的采访.谈到对自动化运维未来的展望,蒋老师表示自动化运维必然是大势所趋,但是因为相关技术债务的存在,自动化运维的成本还很高.那优云自己的技术与产品是如何去做高效运维的呢?本次采访带你了解一二. I

优云丨2017全球运维大会上海站纪实

2017全球运维大会上海站于2017年11月20日-21日在上海光大会展酒店隆重举办,汇聚国内一线运维专家和诸多运维同仁达600余名.作为长期致力于企业级高端运维市场软件开发和咨询服务的优云软件受邀参与本次运维界的盛会.  ▲大会现场 ▲参会嘉宾在优云展台前咨询交流 ▲参会嘉宾在优云展台前咨询交流 本次运维大会,一共来了12家运维行业上下游厂商,有金山云.腾讯云.Ucloud等,但优云依然能够在12家公司里脱颖而出,吸引众多参会嘉宾的目光与注意力.与市面上其他同类产品相比,优云主要有以下5点优势

80%的时间在救火,传统运维如何快速成长不被淘汰?

导读:自从<应对双11挑战,阿里巴巴自动化运维体系的演进和建设>文章发布以来,就引来了众多运维从业者的关注,大家不禁思考,无人化运维离我们有多远?我们如何成为运维领域的专家,不被淘汰?阿里巴巴运维中台技术专家宋意,整合了云效2.0运维产品StarOps,教大家如何利用工具把人从日常重复工作中解脱出来,向专业垂直领域纵深发展,逐步成长为领域专家. 从传统运维OD分离转型到新型运维DevOps,不是简单把运维丢给开发就可以了,需要先把运维的工作工具化,实现开发可以利用工具自助完成,DevOps强依

九年双11云化架构演进和升级,打造更加完美的双11

12月13-14日,由与阿里巴巴技术协会共同主办的<2017阿里巴巴双11技术十二讲>顺利结束,集中为大家分享了2017双11背后的黑科技.本文是<阿里巴巴云化架构创新之路>演讲整理,主要讲解了双11的技术挑战与突破.云化架构演进的背景.统一调度和混部的挑战.Pouch容器和容器化的进展.双11的未来技术发展路线.内容如下. 分享嘉宾:   叔同(丁宇),阿里巴巴资深技术专家,8次参与双11作战,阿里高可用架构.双11稳定性负责人,阿里容器.调度.集群管理.运维技术负责人.   叔

双11稳定性负责人叔同讲述:九年双11的云化架构演进和升级

今天,我们邀请了阿里巴巴资深技术专家叔同,分享九年双11的云化架构演进和升级. 叔同(丁宇),阿里巴巴资深技术专家,8次参与双11作战,阿里高可用架构.双11稳定性负责人,阿里容器.调度.集群管理.运维技术负责人. 叔同:大家好,我是叔同,很高兴与大家分享阿里双11的技术发展.今天我们先来关注一个问题:双11推动了阿里技术的进步,它有哪些挑战? 1.互联网级规模,每天有数亿人在阿里网站上进行交易: 2.企业级复杂度,每完成一笔交易都需要数百个系统的服务支撑: 3.金融级的稳定性,每一笔交易都必须