蘑菇街运维体系及双十一关键技术分享

关于蘑菇街

中国最大的女性时尚社交电商平台,成立于2011年,总部位于浙江杭州,目前(2015.Q3)拥有1.3亿注册用户,双十一日UV超2000万。2015.11.21日宣布完成D轮融资,并实施"一街双城"战略,杭州+北京,杭州偏电商方向,北京偏社交媒体方向。

蘑菇街业务架构-导购期(2011-2012)

运维早期情况

早期阶段(2011-2012年)

– 两位数机器、个位数网络设备。

– 没有运维,开发即运维,靠牛逼的脚本和一些开源工具搞定。

蘑菇街业务架构-转型期(2013)

运维的发展

中间阶段(2013年-2014年)

– 三位数服务器、两位数网络设备

– 2-3名专职运维同学(主机&网络&DB&缓存&......) – 问题响应式的工作方式

– 工具化的运维平台

  • 机器资源管理(CMDB的雏形)
  • PHP发布系统
  • 从指标维度监控系统(主机、QPS、RT、调用次数.... )

蘑菇街业务架构-社会化电商

我们应该怎么办

思路:

  • 建立以应用服务为核心的管理标准体系。
  • 打造CMDB、流程申请、持续集成和监控为一体的自动化运维系统, 而不是孤立的单点系统。
  • 把运维能力服务化(API),使运维的能力无处不在。 

关于应用服务管理

案例介绍

让我们看一个从服务器管理—申请—代码发布—线上监控的案例。

关于应用服务器-Hestia服务和资源管理

  • 从业务的维度来管理主机-CMDB的核心概念。
  • 支持扩容、上下线、设备保障、权限等常规流程申请。
  • 自动化任务的配置和下发。

关于应用服务管理-Mops流程申请系统

关于应用服务管理-发布系统

以trade_ordership_service为标示,进行代码发布。

关于应用服务管理-监控系统Sentry

通用+自定义监控,运维+开发可以时刻关注自己的服务状态和质量。

运维的现状

专业的运维团队 – 系统运维

– 应用运维 – DBA

– 运维开发

  • 运维的能力向平台化和服务化发展(DevOps,依赖于能力而不是人) – CMDB服务化平台

– PHP+Java持续集成发布平台

– 统一的监控平台

– 全链路服务质量分析平台 – 稳定性平台

– 容量评估平台(待做)

  • 工作方式的改变

– 从问题响应式,向整体解决方案提供方向发展

双11技术保障,运维做了什么?

双11关键技术分享—全链路系统

全链路背景

  • 复杂的分布式系统,页面上的一次链接点击,在后端可能会产生几十次的RPC调用,Web、服务化、缓存、 消息、DB.......都有可能涉及,如果出了问题,如何快速定位到故障点要扩容,如何合理评估。
  • 关键概念,全局唯一的TraceId。

全链路技术架构

 

全链路应用-快速发现问题点和瓶颈点

 

全链路应用-调用合理性分析

没有明显的瓶颈点,每一次调用RT也很正常,但是全链整体的RT却很高,问题又出在哪里了呢?

全链路使用后的收益和后续

使用全链路后的收益

– 提升问题的定位效率 – 准确的评估容量

后续

– Mogu-Watch,与前端打通,实现用户全链路的分析 – 压测做到平时,与容量评估平台和资源分配打通。

– 引入云资源弹性扩容,避免应对峰值的批量机器采购。

压测之后,关键技术改造-ATS静态化方案

静态化方案背景和简介

– 主链路(首页-详情&活动-交易-支付),降低RT,提升容量。

– 资源类的如图片、CSS、JS等的静态化方案都会采用CDN技术。

– 对于页面内容类的数据,如商品名称、商品详情等都属于静态数据,而 商品的库存、优惠等则需要获取动态结果。

– 对于活动页面、H5活动推广页面等,则可以完全静态化。

ATS(Apache Traffic Server)静态化技术方案-Cheetah

 

ATS静态化案例-商品详情页

ATS静态化使用后的收益和后续

  • 使用静态化后的收益

– 详情页(全站流量的30%+)静态化在双11期间的命中率达到95%,换言之,减少了后端服务接近30%的流量压力。

– RT从原来200ms降低到50ms,用户体验大大提升。

– 容量提升,减少了后端服务器的数量。

  • 后续

– 借助云资源搭建云上的ATS,更贴近用户 – ATS Cluster方案。

– 支持HTTPS。

– 回源流控和容灾控制。

限流&降级开关推送和WEB应急扩容方案

  • 限流&降级开关

– 限流,Web层,防止被流量打垮。

– 降级,App层(服务化),保障核心应用。

  • •Web应急扩容方案

– 选择Docker 容器,批量生成效率高 – 启动速度快。

– 资源利用率提升明显。

本文作者:佚名

来源:51CTO

时间: 2024-09-20 07:56:21

蘑菇街运维体系及双十一关键技术分享的相关文章

蚂蚁金服互联网IT运维体系实践

8月30-31日20:00-21:30,一场别开生面的技术大会-- "蚂蚁金服&阿里云在线金融技术峰会"将在线举办.本次将聚焦数据库.应用架构.移动开发.机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿应用与技术实践. 蚂蚁金服&阿里云在线金融技术峰会专题:https://yq.aliyun.com/activity/109 峰会统一报名链接:http://yq.aliyun.com/webinar/join/38 本文作者及简介:胡喜 蚂蚁金服首席技术

首席架构师揭秘蚂蚁金服互联网IT运维体系实践

◆ ◆ ◆ 导 读 本文来自蚂蚁金服首席技术架构师,基础技术部负责人胡喜.从2010年支撑双十一最高交易峰值2万笔/分钟到2015年双十一的8.59万笔/秒,蚂蚁金服的技术架构和运维体系一直都在不断摸索和实践.本文就"互联网IT运维体系"这一主题,和朋友们分享蚂蚁金服在该领域的实践经验. 从2010年支撑双十一最高交易峰值2万笔/分钟到2015年双十一的8.59万笔/秒,蚂蚁金服在技术架构和运维体系方面不断摸索实践所取得的成果.在这个过程中,以持续技术演进和创新来支撑互联网金融业务的飞

应对双11挑战,阿里巴巴智能化运维体系演进与建设

导读:DevOps 的概念提出接近10年了,提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律.根据2016年DevOps调查报告显示,一个低效的IT组织跟一个高效的IT组织相比,差距可能是200倍,换句话说低效组织发布一个功能,高效组织可能已经发布了200个功能:故障恢复的效率差距可能是几十倍,低效组织花费几个小时恢复的故障,高效组织可能几分钟就搞定了. 在日益激烈的商业竞争环境下,这么低效的IT组织注定在商业上也是要失败的.因为现在是快鱼吃慢鱼的时代.去年Gartner

产业云架构中全新运维体系的构建

本文讲的是产业云架构中全新运维体系的构建[IT168 资讯]2017年企业数字化转型将大规模爆发,云计算作为数字化必由之路能够带给企业的不再局限于IT系统的支撑,与业务深度融合的产业云将颠覆传统IT架构,重塑企业业务流程.云极星创公有云平台构建的全新的运维和运营体系,为平台用户提供了更好的业务运行环境. 第三届大型企业运维高峰论坛 2017年2月7日,在哈尔滨举行的"创新驱动.智慧未来"第三届大型企业信息运维高峰会上,500余位来自大型企业的代表与数十位企业信息运维界的技术精英.互联网

微店MySQL自动化运维体系的构建之路

前言   互联网时代,数据库如何满足敏捷开发.敏捷交付的要求?传统靠DBA人肉执行的方式,但在面对大量业务需求时,DBA手速再快,记忆力再好估计也不能提供好的数据库服务.在介绍自动化运维之前,我们先来了解下如何使用数据库.   数据库的使用方式主要有两种:   应用混合部署(实例):有新数据库需求时,很多人都会选择找个实例,建个数据库和帐号提供给业务.   好处是能快速提供数据库服务,这种方式在数据库运维的过程中会出现一些问题: 第一,相互影响,个别应用有问题会影响所有数据库: 第二, 应用DB

运营级WLAN网络架构及关键技术探讨

本文讲的是 :  运营级WLAN网络架构及关键技术探讨  , 随着移动互联网时代的来临,无线数据流量呈现爆发式增长,国内三大运营商越来越多的依靠WLAN来承载这些无线数据流量,分担3G网络的压力.2011年中国电信启动"宽带中国翼起来",全力打造"无线中国",预计2012年WLAN热点将达100万个.中国移动计划在三年内将全国范围内的WLAN热点数量增加至100万个.中国联通也计划在2012年底覆盖至少4万座单体楼宇,并启动了数十万部WLAN设备的招标.这样大规模W

构建闭环式的研发运维体系----云效&EDAS DevOps

随着互联网+的不断兴起,"科技+行业"的融合创新已经成为行业转型的核心策略.比如金融+科技造就了众安保险.天弘基金.网商银行等创新金融企业,塑造了行业转型的标杆.为了能够更好地支撑业务的创新,如何塑造企业的共享业务中台,如何支撑互联网架构下研发工程效率的提升,将会是企业遇到的核心挑战.面对这些挑战,阿里巴巴企业级分布式应用服务EDAS与云效平台联合推出了一整套研发平台支撑解决方案,步实现DevOps闭环的关键一步.   产品背后的思考 DevOps是软件开发.运维和质量保证三个部门之间

GOPS全球运维大会深圳峰会第一天会议分享

系列文章: 1. GOPS全球运维大会深圳峰会第一天会议分享 2. GOPS全球运维大会深圳峰会第二天会议分享 一.<运维的救赎> 4月21日 主会场 第一个演讲者是崔晓春,分享题目是<运维的救赎>,核心是在强调"智能化运维"的驱势和重要性. 介绍了运维发展史,从工具--->自动--->平台--->智能,列举了三个智能的案例:1)亚马逊1.5万机器人处理订单,准确率4个9. 2)摩根大通用AI律师,36万小时的人工工作缩至秒级. 3)高盛交易员

车辆大数据在引领平安城市建设发展中的作用及关键技术

"让尊重事实.推崇理性.强调精确.注重细节的理念,贯穿公共安全工作的全过程.善于从多源的.分散的.碎片化的大数据中找到规律."--孟建柱 平安城市系统中车辆大数据的发展背景 随着经济快速发展,城市机动车保有量持续增加,不仅加大了交通管理的难度,而且涉车涉驾的案件比例也不断上升,特别是盗抢机动车辆.机动车肇事逃逸以及涉车类刑事案件,严重影响了社会治安状况,损害了人民群众利益.而随着平安城市建设的扩大深入和资源整合,公安通过自建卡口电警系统加强了车辆管控,掌握了大量的车辆卡口数据和图片.