运维的本质是什么?

五一的时候看到的一个微博,InfoQ发表一篇文章说运维的本质是“可视化”,这个观点不知道出自哪里,但是非常的可笑。

很多观点都是出自没有实际经验的人,这是技术界的悲哀。作为一个从事多年一线运维的普通工程师,我常常给新来的同学讲,什么是运维最本质的东西?

很简单,运维的本质是“可控”。运维是一门非常复杂的学问,不像学会两三门语言,设计几个网站应用就可以成为架构师那样的工作。他除了技术之外,经验积累、视野、大局观、甚至是心胸都有可能决定成败。优秀的开发者比比皆是,但是优秀的运维人员少之又少。

 

原因就是运维内容太复杂了!而我为什么说运维的本质是“可控”,大概有以下几个原因:

第一点:稳定性“可控”

运维不是维护一两台机器,发布代码就好,而是要做成千上万,甚至十几万台的服务器和各种网络设备、存储设备等专有设备维护,这些服务器包含webserver,DB,cache,cdn,computing多种类型,如何让这些大量的服务器稳定的跑在生产环境中,不因为硬件损坏、发布变更、系统升级而引发的业务系统故障。没有东西是不会坏的,没有系统是没有bug的。硬件要坏,系统升级,发布变更,这些都没有关系,但是最重要的,一旦发生这些之后,运维人员知道,这会业务影响多大!?需要多少时间和工作量恢复?

第二点:性能“可控”

我和DBA一起维护DB多年,DBA最痛苦的地方,不在于“慢”,而在于时快时慢。一个不稳定的性能,就无法预估承受业务压力需要的系统规模,这样对于DBA在维护是无异于自杀。很多云计算厂商做设计的时候,往往也会忽略这一点,其实性能的问题,比最高性能,来的重要的多!非常漂亮的数字不能解决问题,但是一次性能的不足,可能就引发故障。

第三点:安全“可控”

有没有绝对的安全呢?理论上没有,所以,运维的同学,总要花很多精力在系统安全上,比如控制哪些用户可以登录系统环境?哪些用户是可以进行变更?哪些用户甚至可以拿到最高权限?测试和开发隔离,公司内外隔离,都是因此而生。只要能够控制权限的面积,范围,就能知道风险,这边是所谓的安全“可控”。

重要如上所示,但是正如一开头所说,运维的内容相当复杂,交付“可控”,变更内容“可控”,效率“可控”都是可以值得深究的东西,因此,无论是“可视化”,“大数据”,“运维自动化”等等,都是在为“运维可控”服务的。数据可视化,带来的是规模可控;运维自动化,带来的是效率可控,风险可控,如是而已。

每一个点的提升,都是运维的提升,希望所有从事运维的同学,都能感受到,做什么可以让“可控力”提升,不要再半夜的时候处理故障,不要和女朋友看电影的时候回公司处理故障,也许我们再次遇到这些问题的时候,可以拿起一杯茶,做一个优雅的运维。

作者:何妍 

来源:51CTO

时间: 2024-10-31 02:25:52

运维的本质是什么?的相关文章

IAAS 和 PAAS 是如何高度体现运维本质的

没有比"可视化"更好的一个词能概括运维的本质,而"可视化"又应该分成两部分:可视化的服务交付和可视化的服务度量! 第一部分:可视化的服务交付 早期的运维是从ITIL开始的,那个时候大家都不知道运维是什么,怎么做,幸好找到了一个IT服务最佳实践--ITIL.于是就开始了运维的摸索之路,从CMDB.服务台.事件管理.变更管理.可用性管理.容量管理等等逐步去了解,逐步建设自己的系统.但我们很快发现,这一完备的流程框架遇到了大规模运维的时候,就无法应对,或者说过多的聚焦于流

无人化运维离我们有多远?阿里智能化运帷平台深度揭秘

DevOps 的概念提出接近10年了,提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律.阿里巴巴是如何开展DevOps的? 阿里集团基础架构事业群运维中台负责人如柏,在2017杭州云栖大会上,详细介绍了阿里运维体系的演进和在智能化运维方面的工作,希望能给大家带来一些启发和借鉴. 阿里巴巴是怎么看运维的? 阿里大致也是经历了这么几个阶段:从最开始的人肉运维, 到简单的工具.自动化, 到系统化和平台的过程, 自动化到一定程度后,开始探索智能化,无人化运维这些领域, 并在阿里的

【转载】作为一个运维,我怎么看Docker?

转载自:http://weibo.com/p/1001603839871499289201 最近Docker非常火,以至于和圈里朋友聊天的时候,如果不提Docker,都不好意思打招呼.于是就补习了下Docker的基本知识:<Docker入门与实践>.有了个大致的感觉. 有个云计算的产品经理问我,你对Docker怎么看?我的回答是:很不错,但是现阶段还不成熟,我不看好.总体来说,对开发很友好,对运维是个灾难.我不知道那些鼓吹Docker具有优秀"可运维性"的人,是否真正做过D

初创公司谁来当你们的运维

运维,哎,多么沉重的话题,初创公司的运维,哎,还能愉快的聊天吗? 初创公司的运维,如今其实兼技术支持.系统管理员(SA).网管.网络工程师.研发工程师.架构师,干着这些看似不相干甚至矛盾的工作. 他们的具体工作? 在办公室中安装系统.帮同事排除机器故障 在机房插网线.搬机器.拆服务器箱子 天天盯着N个监控屏幕.8小时一动不动盯着流量图 在 BOSS.开发工程师.网络/系统工程师.DBA 中间跑来跑去进行沟通 在夜半三更收到服务器监控系统的警报,起床赶到机房,节假日陪女朋友收到报警也得赶到机房(当

腾讯最赚钱的部门是怎么做运维的?

背景介绍  腾讯互动娱乐事业群的主营业务是游戏,所有腾讯游戏都是由这个事业群做的,估计很多人都玩过,像<英雄联盟>.<全民突击>等.我所在的部门叫运营部,负责所有腾讯游戏的技术运营工作. 简单解释一下,什么叫技术运营工作,这里包括了几个部分:运维,营销开发,数据分析和数据挖掘,用户运营(所谓用户运营,不是传统的客户服务,是一些高端的用户运营.) 比如说在腾讯游戏上一年花八万,就是我们的VIP,我们有专属的服务经理对接,就像银行的VIP用户一样.这里就不展开了,重点说说我所负责的运维

运维杂谈老王:详谈运维可视化、DevOps和运维危机

本文分为三个部分,第一部分从服务交付和服务度量两方面介绍运维可视化:第二部分介绍什么是DevOps以及它给运维带来的改变和影响:第三部分结合最新的数据资料和趋势聊一聊运维人可能面临的危机. Part 1    可视化 没有比"可视化"更好的一个词能概括运维的本质,而"可视化"又应该分成两部分:可视化的服务交付和可视化的服务度量.   一.可视化的服务交付 早期的运维是从ITIL开始的,那个时候大家都不知道运维是什么,幸好找到了一个IT服务最佳实践--ITIL.开始了

运维的未来:云服务兴起,运维人员会“下岗”吗?

编者按:本文作者 Tyler Treat 是一名软件工程师,他认为运维的未来从很多方面来说都跟质量保证(QA)的未来走向相似.未来,运维要使开发者能够通过工具.自动化和流程实现自助服务.传统的运维( Ops)没有消失,只是在重组. 云服务的发展看起来让运维人员"丢"了工作,因为从传统意义上说,从本地(on-premise)转移到云平台意味着运维工作在相当大程度上外包给云提供商.这正应了那个流行词-- "无运维运动"(NoOps),许多人称之为 DevOps 的&qu

数据运维对于运维具有哪些重要意义

大数据模式已经到来!个体既是数据的创造者也是数据的使用者,医疗,科技,教育领域都早已参与其中.并创造无数的好产品和价值.核心数据搜索和推荐.电商定点广告和推送,基因健康预测等都在不断重新定义互联网的生活.人们的生活并因此而改变.大数据的确对社会进步会产生深远影响和意义.简单来说就是数据可以产生价值! 每个人都在工作中对结果负责并为此带来效益和价值,同时有些人冲在一线在做体系之外的绿叶.他们的工作不直接产生效益但是他们可以足够影响效益结果,这就是苦逼而沉默的运维.默默无闻的运维一代是否可以真正爆发

中小企业基于云的自动化运维实践二则

案例1:基于云的运维自动化 我们是小规模的公司,搭建在 AWS 上的服务,主要使用 Ruby on Rails,并实现了应用的水平扩容. 在专案一开始的时候只有一台 EC2 就可以跑了,后来因为专案越做越大,开始做平行扩充以及 SOA,因此我们导入了 Chef 做自动化运营,主要使用 Chef 做机器的安装及部署,使用 Cloud Watch 做机器与 Application 的效能监控,在每次 deploy 的时候做AMI,当资源负担到达设定值时,Chef 会使用最新的 AMI 开一台新的机器