如何让云运维变得简单

随着工业4.0的兴起,云计算已经从实验阶段转化为具体实施阶段。除了部署相应的软件、硬件和虚拟化资源,还有一个问题摆在我们面前,如何运维云?如果没有清晰的云运维规划和手段,云数据中心将难以高效的运转起来,所以云运维对于云建设者来说是至关重要的一环。那么云数据中心与传统的数据中心运维有什么共同点和差别?做好云运维应该关注什么?该如何选择一个合适的云运维工具?上述问题都是应该是云运维过程中会遇到的。下文会针对这些问题展开详细论述

一、云运维与传统数据中心运维比较

“云是数据中心的新IT形态”,云与传统数据中心的建设目标是一致的,都是为企业提供IT服务。运维人员的职责都是保障IT服务的质量,围绕服务等级协议SLA展开各种运维活动。然而在运维技术、管理模式、财务流程、服务分级、业务要求、运维职责划分等方面两者又有所不同。

· 相对于传统的数据中心,云数据中心的服务特征更加明显,云数据中心将基础设施(IaaS)、平台(PaaS)、软件(SaaS)以服务的形式提供给最终用户,它利用虚拟化、SDN等技术将网络、计算、存储以及应用等资源池化,通过自动化技术按需为用户分配IT资源。因此在云运维中IT请求交付(Request Fulfillment)流程的地位不断突出,也使得云运维显示出明显的运营性质。

· 云也改变了传统数据中心的财务管理模式和采购模式,传统数据中心原来的采购流程变为了服务审批流程。要申请云数据中心资源,面向云业务的计费系统也应运而生。云计费除了用于真正的收费场景外,更多的时候应用于企业内部,通过内部核算,也就是经济杠杆去有效约束IT资源需求,形成在服务质量和IT资源间的平衡,有效提升IT资源利用率。

· 云数据中心对IT服务交付速度提出了更高的要求,然而云数据中心的基础结构却比传统数据中心更加复杂,手工交付难以满足云服务交付的速度要求,更容易发生故障,自动化交付就成为了云服务交付的必要手段。

在传统数据中心,运维人员需要关注基础设施的维护,而在在混合云和公有云应用场景中,应用管理的地位更加突出。运维人员不必关心部署在公有云上的业务所依赖的基础设施,而业务监控的职责也转移给公有云提供商。公有云提供商不但要保障IT基础设施本身,还要更加关注承载业务的运行状态。

二、云数据中心运维简介

在云数据中心维护过程中,云服务请求交付系统、计费组件以及自动化部署组件已经从云运维系统中剥离出来,形成相对独立的运营平台—云平台。云平台提供了服务目录、自助服务台、云服务自动部署、以及一体化的计费和核算功能,因此云平台对云数据中心的正常运转至关重要。

而传统的网络监控、服务器监控、机房监控、业务监控、事态管理、变更管理、问题管理、配置管理对云数据中心而言依然不可或缺。

云平台是云数据中心的对外服务和展示窗口,是云租户对云数据中心的直观体验。云数据中心运维是云服务水平的后台保障,二者就像客机上的空乘和地勤一样,在云数据中心缺一不可。

1、云运维过程中需要关注哪些问题?

在云运维过程中主要需要关注如下几个问题:

  • 选择开放架构

云虽然已经到达了可实际部署阶段,但是云平台架构、计算虚拟化技术、网络虚拟化技术、云与大数据的配合等技术依然发展迅速。为保障云运维的持续发展,应该优先选择正在不断演进的开放平台作为基础架构。

  •  CMDB作用愈加明显

在私有云和混合云应用场景中,高度集中的业务、高度集中的设施、广泛应用的虚拟化技术、众多的云设施和软件供应商、多样的云服务消费者,以上这些因素组合在一起,使云运维的复杂度成指数级增长。云数据中心的设备信息、应用信息、策略信息、维保信息、组织信息、负责人等各维度的信息交织成复杂的关系网,实际运维时如果能从这张关系网中将所关注的信息抽丝拨茧,将大幅提升云运维的效率。反之如果没有有效手段管理这些关系,云运维可能会变得混乱和无序,运维效率低下,使云服务体验大打折扣。设计合理的CMDB(配置管理数据库)恰恰是解决这个问题的最佳途径。CMDB自动同步配置项信息,将割裂的各维度信息关联在一起,帮助云运维人员全面、准确和及时地了解业务相关的组织、资源、环境和服务等不同维度信息,使运维人员快速准确地了解事件影响范围,作出正确的决策。

  • ·使用必要手段全局监控业务质量

在混合云应用场景中,部分开放的业务会部署到公有云上,企业运维人员无法有效的监控到公有云的基础设施,在这种情况下,公有云的服务等级SLA就成了一个黑盒,无从监控。所以必须要有有效的手段全局监控业务质量,从而间接评价公有云服务等级SLA。

  • 明确云架构下各机构的责任主体

由于企业组织架构是按照传统的网络、应用、计算来划分的,而在混合云场景中,云服务商与企业运维人员也不属于同一组织机构,所以当部署在云上的业务出现故障时,容易出现组织间的推卸责任的问题,从而延长了问题的定位和解决周期。因此企业运维人员要有手段基于业务按照网络、计算、应用等不同维度的出具资源健康度报告,明确问题责任主体。

  • 云场景下如何有效控制开销

云应用场景中还有另外一个问题,就是如何使用最小的开销(公有云资源),最大限度地保障业务的质量。为了保障业务的稳定运行,企业运维人员通常为每个业务申请一定的资源余量,然而过多的余量会增加财务成本,如何确定这个量,就成企业运维人员关注的问题。一份能将业务运行时所需要的CPU、内存、磁盘等历史信息进行有效分析的可度量的业务容量分析报告,将对企业运维人员非常有用。如果在资源不足发生前,有工具能够提前预警,给企业运维人员充分时间调整资源分配策略,将有效节省公有云开销。

  • 使用可控的自动化手段提升管理效率

云数据中心的资源规模、业务规模、组织规模远远超过传统数据中心。新设备的快速部署、快速上线、纳管监控、资源编排、定期巡检、升级和配置变更这些原本就颇为复杂的工作在规模和速度的双重压力下都变得更加艰巨。传统的手工方式效率低下,出错风险高,自动化手段逐步成为云运维的首选。随着虚拟化、PXE、SDN、Overlay、服务链等技术不断广泛应用,自动部署、自动编排、自动巡检、自动升级等自动化手段越来越多应用于云运维。然而自动化仍然要在可控、可跟踪、可审计、可回退的前提下进行,避免单个错误的扩大化。虽然自动化还存在一定风险,云运维的自动化趋势已经不可逆转。

2、如何选择有效运维工具

运维工具产品种类繁多,每种运维工具都有自己适合的应用场景。云数据中心架构复杂,业务集中,应该如何选择适合云运维工具产品呢,下面将展开详尽的分析。

大集中的云数据中心降低了IT整体维护成本,也增加了业务风险。精密空调故障、UPS故障、火灾、漏水任一风险如果不能及时处置都可能给整个云数据中心造成无法修复的大面积损坏。这种损害影响程度远远大于单设备的故障。所以实时的机房监控工具对于云数据中心运维依然非常重要。

对于云运维而言,如果仍然按照传统的网络、计算、存储、虚拟化、应用去分别管理,对云运维人员讲,不但头绪繁多、而且效率低下。最好能选择一套工具,能够将应用、网络、计算、存储、虚拟化等IT资源的性能及告警信息综合分析,通过简洁易懂的界面,直观呈现业务健康水平。当出现故障时,能够先从全部业务的宏观视角,确定关联和影响,再通过智能钻取和故障定位技术,缩小故障定位范围是在计算、应用还是网络,从而明确问题职责,帮助IT管理员准确定位业务故障位置。

选择合适的数据中心容量管理对数据中心运维也非常重要,容量管理工具要能从业务、集群、机房等多个角度分析数据中心容量趋势,预测容量风险,指导资源优化,为IT投资提供量化依据。业务容量管理要能根据业务负载及资源消耗趋势,预测系统资源瓶颈,为管理者提供容量预警和扩容建议。集群容量管理应该全面监控集群内物理和虚拟化资源,智能分析资源超配比例,指导资源配置。

选择合适的CMDB工具会给云运维带来事半功倍的效果。CMDB工具让云运维人员全面、准确和及时地了解业务相关的环境、资源、组织、服务信息,有效帮助云运维机构消除信息孤岛,提升信息关联性和透明度。

云运维监控工具除了上述特性方面的考虑外,还需要注意工具的广泛的资源监控能力。只有具备监控各种应用、多个厂家的网络设备、不同服务器款型、不同虚拟化产品等IT资源的能力,才能进一步作到融合分析和统一运维。如果没有广泛的适配能力,云运维工具就成了中看不中用的花架子,难以产生真正的价值。

运维工具在选择时还要注意一点,不能将运维工具想象成万能的,所有问题都依赖工具解决。运维工具是配合云运维规划、企业组织架构和企业管理制度一起来保障云服务质量的,它仅仅是云运维的一个组成部分。云运维仍然需要遵从PDCA(计划、执行、检查、行动)的规律不断改进和优化。随企业的业务要求变化、管理体质调整和技术发展,运维工具也需要不断演进、不断优化,所以云运维工具的选择也应循序渐进,不能一口吃个胖子。

结束语

云运维是个复杂的系统工程,选择好的云运维工具无疑会使云运维变得轻松,高效。然而选择这样的工具前,首先需要考虑云运维的组织应该如何更好的为云服务,清晰的组织划分,明确的责任定位,完善的流程规划,能够帮助确定云运维工具的软件定位,从而使快速找到合适的运维工具事半功倍。云运维工具仍然依托于传统的IT设施监控和应用监控,没有这个基础云运维将变成空中楼阁。在此基础上,云运维工具更加重视系统级的业务监控,更加重视业务、资源、服务和人之间的关联性,更加重视智能排障能力,更加重视容量管理,更加重视自动化能力。有了合适的运维工具软件,云运维自然变得简单。

本文作者:佚名

来源:51CTO

时间: 2024-09-26 04:10:50

如何让云运维变得简单的相关文章

如何搞定云运维——云计算IT基础设施与自动化运维论坛掠影

5月18日~20日,第八届云计算大会在京召开,工业和信息化部副部长怀进鹏出席会议并讲话,云计算大数据领域的9位院士和200多位专家在全体大会和专题论坛上作报告,三天共有超过15000人次听众参会.这个数字远远超过了往届会议,从侧面也足以说明,云计算在国内已经取得了足够的认可和关注. 事实上,有一种趋势无法忽视.企业对云计算的主要诉求从"经济"转变为"业务",也就是说,云计算推广初期所高举的"省钱"大旗不再是企业关注的主要方向,企业更关注云对其业务

浅谈分布式存储系统Pangu2.0——它让双11运维变得智能起来

分享嘉宾:省身    阿里云资深技术专家,2012年加入飞天Pangu团队,主攻分布式存储方向,推动了Pangu2.0在双11期间的全面落地 这篇整理来自于阿里云飞天八部Pangu团队技术专家「省身」在2017阿里双11在线技术峰会中的分享,该分享整体由三个部分构成 1      Pangu2.0在双十一当天的表现 2      Pangu2.0的背景和架构 以及完善这一系统的历程 3      详细介绍Pangu2.0在稳定性,高性能,低成本和业务性上面的一些进展 实测业务支持,在双十一中保持

如何打造一个高逼格的云运维平台?

作者简介 鲁逸丁  中国银行卡组织运维架构师 长期从事金融信息系统运维工作,专注于运维体系建设,对金融企业云计算运维具有深刻理解,银行卡组织云运维平台负责人. 前言 大家做运维普遍经历这样的过程: 首先我们会把操作做一个标准化,这个阶段是运维质量的提升的阶段. 在标准化实施完以后,由于数目的增加,或者是一些运维场景的增多,我们会逐步的进行一些工具化和自动化,这个阶段我们的运维的效率得到提升. 但是众多的工具以及自动化脚本,会让我们的管理过程中比较困难,随着人员的变动或者是一些工具维护过程中的差错

BoCloud博云完成近亿元融资,加速PaaS与云运维落地

5月10日,企业级云平台解决方案提供商BoCloud博云,宣布完成近亿元人民币的B轮融资,该笔融资成为国内迄今为止容器技术.PaaS及自动化运维领域创业公司中规模最大的一笔融资,也是容器领域国内迄今最大的一笔融资.本轮融资由元禾控股.东方富海联合领投,江苏华泰证券互联网基金与邦盛资本参与联合投资.本轮融资证明BoCloud博云的技术.产品.服务.运营能力受到投资人的高度认可,希望通过注资帮助BoCloud博云进一步加强其在市场中的竞争力,加速公司发展,打造公司领导力,扩大公司服务能力,为BoCl

阿里云运维部署工具AppDeploy UI界面上线

阿里云运维部署工具AppDeploy版是一个通过SSH实现的流式命令行工具,可用于完成应用部署和远程运维管理,其工作于python平台上,具有良好的可移植性:AppDeploy图形化界面提供友好的用户交互模式,让您更加便捷.直观的实现业务需求.   UI版本免费下载地址: http://market.aliyun.com/products/53690006/cmgj000321.html?spm=5176.900004.4.4.xhgeT3   下图是AppDeploy UI的主管理页面: 脚本

云运维如何选择部署适合自身的IDC和网络

目前市面上的云产品层出不穷,对于用户来说选择一款适合于自己业务的云至关重要.这要求用户选择的云产品除了与自己的业务需求契合度高之外,还要运行稳定.可用率高. 对于各种云平台来讲除了技术上的差异外,有一点是相同的,他们的资源都是部署在IDC机房和运营商网络上的.因此选择一个稳定的IDC和网络供应商来承载各自的云平台是各云服务提供商的首要任务. 之前力哥已share过G云COO冯总的相关IDC选择的文章,在文中着重对个运营商网络和节点做了阐述,因此,我会在其他方面多说一点,经验不足支持请大家多多包涵

开源还是商用?十大云运维监控工具横评

随着云计算和互联网的高速发展,大量应用需要横跨不同网络终端,并广泛接入第三方服务(如支付.登录.导航等),IT系统架构越来越复杂.快速迭代的产品需求和良好的用户体验,需要IT运维管理者时刻保障核心业务稳定可用,而企业运维中的痛点和难点也急需解决. 1.面向业务的运维,不但关心单点IT资源的运行状态,更关心整个业务系统的健康状态 2.如果企业使用了大量的API和模块化应用,那么关注每个接口的性能变化情况和指标 3.对于运维主管及企业管理层来说,特别需要上墙的监控大屏 4.运维需要每周.每月查看报告

优云运维:漫谈redis在运维数据分析中的去重统计方式

今天,我和大家分享下redis在运维数据分析中的去重统计方式.为了避免混淆,本文中对于redis的数据结构做如下约定: SET:saddkey member ZSET:zaddkeyscoremember HYPERLOGLOG:pfaddkeyelement STRING:setbitkeyoffset value 名词约定: 维度:比如版本.操作系统类型.操作系统版本.运营商.设备型号.网络类型等 复合维度:由两个或多个维度交错产生的维度,比如某个版本下的某个设备型号. 去重统计在数据化运维

优云运维专家浅谈运维平台选型,提速DevOps运维

现如今DevOps已经深入人心,在这个大量数据中心建设加速的时代,运维部门都在高度强调自动化,而自动化的关键即DevOps.但是,大家在推进DevOps的过程中却发现其前途坎坷. 一种方案是建设自己的开发队伍从头开始,做CMDB.做监控.做自动化.做流程.做服务目录.做大屏展现,这种造轮子方法需要强大持续的研发投入,成本极高: 第二种方案则是寻找开源产品改造,以适合自己,如CMDBBuild.Zabbix.JBPM等,但是开源社区的产品,技术风格迥异,成熟度低,技术团队的素质要求高.踩的坑很多,