云存储系统监控服务分析

      监控在我们的日常生活和生产随处可见,交通、银行、超市、商场、学校、工厂等等,在刑侦、勘探、科研、安保等各种领域,发挥了越来越大的作用,已经成为人们不可或缺的安全屏障和有力工具。
      监控对于计算机网络同样有着巨大的意义和价值,从服务器性能到应用服务状态,从硬件资源到网络流量,为业务应用、系统运维等提供准确的运行状态信息,及时发现、暴露问题。

      OSS作为智能分布式云存储系统,对外提供海量、安全和高可靠的存储服务,使得用户无需关心系统资源和服务器运维问题,将更多的精力专注于业务和应用层级等上层建设。随着业务量日渐庞大,用户对OSS系统服务质量的要求在日益提高。既然如此,除了提供基本的存储服务之外,我们还能为依赖我们的用户做点什么,能让他们实时地了解自己购买的服务状态以及业务的使用情况,并且能够及时的发现问题、诊断问题和解决问题呢?所谓“运筹帷幄之中,决胜千里之外”,我们不仅仅自己需要做到这一点,更要帮助用户达到这一点!
       所以,为了帮助用户更好的使用OSS,直观地显示资源使用、服务质量等信息,让用户能够对系统、业务状况作出及时应对、保证业务健康运行,监控报警服务迫在眉睫!!

用户关心什么?

     用户使用云服务,或者更通俗的说,用户花钱买服务,关注的本质信息只有两个:费用和服务质量。
     比如,用户业务突然故障,如何让其很快地定位是业务使用问题还是OSS系统故障?再比如,有什么直观的方式能够让用户评估OSS系统的性能情况,是否满业务在峰值时的实时性需求?再比如,如何让用户对自己的消费行为有准确的预估,方便做出财务成本预算?
     如何满足用户痛点,如何能够使用户最为关心的信息以最低的成本,简明扼要的展现在用户面前,是我们第一优先级要解决的问题。
   

云存储监控服务现状

     目前OSS监控提供了3类的监控指标数据:

  1.  用户计量数据指标: 

    • 存储空间
    • 使用流量:使用流量:公网流出、公网流入,内网流出、内网流入,CDN流出、CDN流入,跨域复制流出、跨域复制流入
    • 计量请求数:PUT类请求数、GET类请求数
  2. 用户服务质量指标:  
    • 内部错误数
  3. 用户业务统计指标:  (相关指标详细说明请见OSS官网控制台)
    • object热点统计
    • 地域统计
    • ISP统计
    • IP统计
    • Referer统计
    • 搜索引擎统计
    • 鉴权相关统计

     其中,用户计量数据指标反映用户bucket层面的资源使用状况和计量信息;用户服务质量指标反映OSS系统稳定性以及用户的使用状态;而用户业务统计指标则是根据用户业务状态提供一些业务层面的统计数据。
     用户计量数据指标和用户服务质量指标是以1小时的时间粒度展示,而用户业务统计指标以天为统计粒度展示。
     这些统计指标虽能够在一定层面上给用户提供信息,但是在实时性、报警通知机制、性能信息需求、业务实时状态等方面还是欠缺的,没有一套完整的监控metric机制和服务体系。

     所以,我们一直在努力改变!

解决方案

  • 明确监控对象信息,设计完整的监控metric是设计监控报警系统的基础核心

     从前面分析用户痛点获悉,需要被监控的对象是服务质量和消费情况。服务质量主要反映在用户请求行为和系统性能表现中,而用户的消费情况可以使用系统的计量信息集中体现。所以,可以按照基础信息、性能信息和计量信息对我们的监控信息进行分类。

基础信息

      基础信息主要包含了用户请求数、用户流量、服务器错误和客户端错误。目的是让用户能快速判断服务的负载和健康程度。

  • 用户请求数:该指标信息体现了系统的负载情况。
  • 用户流量:流量体现了用户请求占用的网络资源情况,同样反映了系统负载。
  • 服务器错误:OSS内部系统错误,反映系统的稳定性和服务能力。
  • 客户端错误:由用户错误使用造成的错误。

      请求错误需要区分系统错误和用户错误。虽然用户错误和OSS服务无关,但是影响了用户的业务,也需要呈现给用户。当用户发现错误请求数不符合预期时,肯定希望能够进一步调查错误原因,此时如果将错误的请求按照一定的状态或者错误码进行分类统计,并且给出对应的操作行为,就能够为用户定位、排查问题起到关键作用。因此我们可以依据常见的HTTP状态码和OSS的错误码对错误请求进行归类,并且统计。

性能信息

      请求延时是衡量系统性能的重要指标。所以实时的延时信息监控和毛刺状态对用户评估业务需求和服务性能至关重要。而且请求延时包含网络延时和服务器延时两大部分,通过监控E2E(端到端)延时和服务器延时,能够快速帮助用户定位性能问题。

计量信息

      费用是用户关注的重要信息。而OSS计费方式的均按照阶梯形式进行,按自然月累计,所以计量的当月消费信息展现肯定是以月为粒度统计相关的计量数据。我们会为用户呈现实时和本月已消费这两种计量信息,帮助用户实时监控消费状况和预估消费趋势。
      OSS的计量信息分为3类:存储大小、互联网下行流量和有效请求数。因为计量账单以小时为单位输出,所以,计量信息的实时展现也以小时为粒度。

其他监控信息

      当然,因为用户使用服务的业务模式不同,对服务接口的调用方式也不同。每个用户都有自己关心的更细粒度上的API请求情况以及性能情况,所以我们也可以从更细粒度上监控相关信息,如,根据API分类统计请求数和性能情况。
      结合以上的监控信息,再通过更细粒度的收集API层面的监控信息,能为用户提供更有针对性的业务监控依据。

  • 利用专业的监控报警服务平台——阿里云监控服务,集成其成熟稳定的设计架构、全面完善的服务机制

       目前,云监控是阿里云对外提供的、能针对资源和互联网应用提供监控服务的产品,同时具有对部分云产品的监控功能。所以,OSS监控报警服务纳入到云监控体系中,能让用户更好地构建业务驱动的、跨多个阿里云服务的监控报警体系。

高实时性

       监控报警的及时性取决于数据采集、分析和存储的频率。更高的频率意味着更多的资源投入与技术难度。为了满足客户的实时性需求,我们采用分钟级别的聚合粒度反映业务指标,保障服务质量!

报警服务

      除了让用户能够直观的查看监控信息,还应该为用户提供及时的通知机制,这就少不了报警服务,报警和监控休戚相关。
      对报警的要求简言之:准确、及时。
      如何做到准确?依赖于对业务模型的准确分析和报警规则的灵活设置。对于有明显阈值的业务数据,采用阈值规则;对于有明显周期性的业务数据,采用环比规则。另外,准确不仅仅指能抓住数据特征,更需要过滤无效信息防止骚扰和误判,因此,连续的满足报警规则的需求也至关重要,能够排除业务数据不稳定导致的误判。
      如何做到及时?依赖于报警数据采样的实时性和通知机制的多样性。我们实时监控系统的延时和聚合都能在分钟级别,保证在故障突发时能通知用户及时采取相关错误。另外,根据不同的优先级设置不同的通知机制,如按照优先级可以分为短信、旺旺和邮件,尽量使得紧急事件能第一事件被通知到负责人。

OpenAPI监控数据访问

      提供阿里云OpenAPI,让用户能够通过SDK查询监控数据,基于自身业务逻辑进行监控、报警或者其他更精确的业务数据分析。

结束语

      OSS监控服务即将上线,敬请期待!
      有任何需求或者建议,请联系我,很高兴能和大家进行需求交流和技术探讨!

------------------------------------------------------分隔符-----------------------------------------------------------


诚聘英才

阿里云函数服务是一个全新的,支持事件驱动编程模式的计算服务。 他帮助用户聚焦自身业务逻辑,以Serverless的方式构建应用,快速的实现低成本,可扩展,高可用的系统,而无需考虑服务器等底层基础设施的管理。 用户能够快速的创建原型,同样的架构能随业务规模平滑伸缩。让计算变得更高效,更经济,更弹性,更可靠。无论小型创业公司,还是大型企业,都受益其中。

我们的团队正在迅速扩张,求贤若渴。我们想寻找这样的队友:

  • 基本功扎实。既能阅读论文追踪业界趋势,又能快速编码解决实际问题。
  • 严谨的,系统化的思维能力。既能整体考虑业务机会,系统架构,运维成本等诸多因素,又能掌控设计/开发/测试/发布的完整流程,预判并控制风险。
  • 好奇心和使命感驱动。乐于探索未知领域,不仅是梦想家,也是践行者。
  • 坚韧、乐观、自信。能在压力和困难中看到机会,让工作充满乐趣!

如果您对云计算充满热情,想要构建一个有影响力计算平台和生态体系,请加入我们,和我们一起实现梦想! 

详见:http://www.atatech.org/articles/53851

将你的简历发送到shuting.yst@alibaba-inc.com,标题  应聘阿里云-姓名

如果你有自己的git地址或者个人博客,将会大大加分哦,一起在邮件中发给我吧~~~

时间: 2024-10-29 23:31:57

云存储系统监控服务分析的相关文章

Docker监控技术原理和阿里云容器监控服务实践

在组织的云栖计算之旅第2期-Docker在云平台上的最佳实践专场中,阿里云晨末做了题为Docker监控原理和阿里云容器监控服务实践的分享.在本次分享中,他谈到了监控的重要性并且针对于Docker容器的监控技术进行了精彩分享.   本次分享的内容看起来非常高大上,但其实原理却非常简单.本次主要将分享两个部分,一部分将会分享Docker相关的监控原理,另外一部分就是介绍一下阿里云容器服务.在国内而言,阿里云的Docker产品是比较先进的,因为我们进行了大量的用户调研,所以很多用户想将业务迁移到Doc

使用阿里云容器监控服务与第三方监控框架集成搭建自己的容器看板

一.概述 阿里云容器监控服务日前正式上线,容器监控服务提供了非常简单快速地与第三方开源监控方案集成的能力.本篇文章就带领大家一起试用阿里云容器监控服务,并使用目前比较流行的第三方开源监控框架做集成,搭建自己的监控看板. 二.操作 1. 编排模板与注意事项 version: '2' services: #定义influxdb influxdb: image: tutum/influxdb:0.9 ports: - "8083:8083" #暴露web界面端口 - "8086:8

面向服务的云制造系统架构分析

面向服务的云制造系统架构分析 康玲 吴华 王时龙 周杰 为了解决当前云制造尚缺应用模式的问题,根据云制造全生命周期智慧制造.按需动态构建及多粒度服务等特点,提出了基于Agent的云制造系统5层架构.基于面向服务的思想,建立了云制造OWLS本体模型,通过本体映射.推理机.匹配器完成服务请求.发布和绑定流程,提出了一种面向云制造服务的OWLS本体扩展框架和Web语义化描述方法,为云制造服务匹配奠定了理论基础.构建了基于Agent的云制造服务协商机制,通过Agent分工.合作.竞争及协商实现云制造

容器监控—阿里云&容器内部服务监控

目前Docker的使用越来越离不开对容器的监控,阿里云最近上线了容器服务,不但提供了核心的容器和宿主机监控能力,而且支持集成 Cloud Insight 监控,下面会介绍如何集成. 首先介绍一下阿里云的容器监控.阿里云容器服务在用户创建集群的时候就默认开启了几个容器服务,其中就包括一个容器监控服务,其监控大概就是使用这个服务来采集数据的. 容器监控的对象就是各个正在跑的容器本身的运行状况,而如果你想要监控在容器里面运行的服务的状况呢?这时候Cloud Insight 就可以帮到你了. 那么我们先

基于成熟基础架构云平台的服务云建设

[硅谷网12月12日文]据<硅谷>杂志2012年第18期刊文,在分析当前云服务建设产业发展机遇的基础上,分析了传统云平台服务建设存在的主要问题.最后,基于成熟的基础架构云(IAAS)平台产品完成基础设施的整合和基础架构云的基础环境部署,验证基础架构云的相关技术能力.成熟度.安全性.可扩展性符合云计算云平台的要求. 0引言 近年来,全球云计算产业蓬勃发展.我国云计算产业兴起于20世纪90年代,云计算产业已经形成了竞争性的产业发展态势,以展览展示.网络游戏.远程教育.数字电视内容制作以及各种影视动

号外号外~~OSS监控服务上线啦!!

还在为以下问题发愁吗: 访问指定url返回500,发工单怒找OSS support,绕了一大圈调查发现是业务自己的WEB应用导致的500!? 业务应用对网络流量使用的太多,费用太高,抱怨OSS没有对计量数据的实时监控和使用提醒,一觉醒来房子都归阿里了!? 应用请求不稳定,时慢时快,而网络链路长,抱怨没有端到端的性能监控,定位性能问题难!? ......       现在,大家有福啦,上面那些问题都不要不要的,不要啦!!!     经过小伙伴们4个多月的共同努力,     OSS监控服务终于成功上

如何利用基于云的沙箱来分析恶意软件?

对于企业来说,传统防病毒和端点安全工具是分层网络防御战略的关键组成部分,但在检测恶意软件方面,它们并非100%有效. 有些更高级的恶意软件(例如利用零日漏洞的多级恶意软件)可攻击这些安全工具并感染受害机器.这种高级恶意软件通常由民族国家或有组织犯罪团伙用来入侵具有良好传统防御的企业,并且,他们通常通过电子邮件网络钓鱼攻击作为交付方式. 为了加强端点安全和入侵防御系统,有些企业转向基于云的沙箱技术,他们现有安全提供商通常提供沙箱技术作为高级模块.在文件或链接传输到用户之前,基于云的沙箱会先在安全环

未来云与数据服务的竞争,将成为数据中心竞争

前几天,微软现任CEO鲍尔默对外宣称,微软在全球各地的数据中心服务器总数为100万台,少于搜索巨头谷歌,但是要多于亚马逊,在终端市场不理想情况下,微软加强了对云端的重视."棱镜风波"也让深藏在美国中部犹他州能峡谷内,美国国家安全局的一座一个面积1100万平方英尺(约1022万平方米).价值约19亿美元的数据中心备受关注,虽然还不可以和微软最大的数据中心比大小,但联想到其很可能被用作全美通话和网络信息和数据监控和分析,这样的规模已经非常恐怖了. 航母和导弹更能决定一场大的战役,硬件的复兴

如何部署基于云的安全服务

安全即服务属于软件即服务(SaaS),它让企业将网络安全和监控服务托管在公共云或者混合云中,而不需要在企业内部部署设备.为什么要使用云安全服务?与内部部署的网络安全相比,安全即服务有很多优势,其中之一就是降 低成本,因为它没有资金支出,企业可以以每 个用户的订阅形式来购买服务.除了成本,安全即服务易于部署,只需要很少的维护工作,具有可扩展性,并支持移动用户.如果 云服务供应商履行其服务水平协议(SLA),这些基于云的安全服务的可靠性足以取代一些企业内部安全工具.用例对于企业来说,把所有网络安全功