运维DBA的四大纪律九项注意

朋友们调侃说,运维是个把脑袋别在裤腰带上的活,更有人说,运维是个把脑袋别在他人裤腰带上的活,苦劳没人认,有锅就有得背!

测试的同学说,“吃瓜群众很难感知运维背后的付出,倒是出了事情更能体现我们的专业性。”小样儿,你这是还没有掉坑里过。

所以,最好就是减少锅的出现。

但是,锅来了,大家就得背,甭管你是运维、产品、测试还是开发,总得有个人出来走一走,对吧?

今天我们就来谈谈运维 DBA 怎样少背锅。

运维 DBA 的形势是很恶劣,但再恶劣也比不过当年红军过草地。红军当年靠三大纪律八项注意度过了难关,若运维 DBA 认真执行,也能度过背锅难关。

运维 DBA 的四大纪律

一、一切行动听指挥

甭管你是团队,还是团伙,要求都是一样的,一切行动听指挥!听谁的指挥?听运维经理、运维总监、CTO、CEO 的指挥。

当年墨子当钜子的时候,手下 180 人,训练有素,同心同德,“赴火蹈刃,死不还踵”。这样的团队来搞运维,就具备了基本要求。

运维团队里,最忌讳的是具有三脚猫功夫、蔑视前辈经验、心浮气躁的人,遇到这种人 Team Leader 要及时校正甚至剔除,否则这就是你背锅的最大来源。我被坑得比较惨的几次,都是因为团队里有这样的人,想动手的时候不够坚决,最后祸起萧墙,只能弓着腰给客户和领导死命的批评。这叫什么,一颗老鼠屎坏了一锅汤。

所以,选择运维成员时,要选那种踏实、机敏、上进、沟通能力强的年轻人,用心培养,往往事半功倍。

二、两条红线不能犯

所谓红线,就是天条。第一个是按指挥再行动,其实是活的,可能是要请示和汇报的。这第二条是死的,就像高压线一样,碰到就完蛋了。

  • 所有变更要做到:凡变更必有方案,凡方案必经过评审方可执行,凡执行必严格遵循方案,重大变更需要有人核实。

这一条其实是为了规避误操作,误操作就是人为故障。人为故障在所有故障中的占比一直是很高的。

  • 所有影响到业务的故障,不管是硬件故障、软件故障还是人为故障,必须第一时间通知到部门经理。

这一条是为了规避,技术人爱钻牛角尖,看见故障钻进去就出不来,贻误战机,把快速恢复业务的大好时机给浪费了。

三、假日前容量规划

记得某一年有一次团队 Outing,集合时某 DBA 睡眼惺忪地说半夜3点被告警搞起来了。这还不算,他在玩密室逃脱的时候,又接到机房告警电话,某业务表空间使用率超过 85% 严重告警了。是不是亮瞎了?

要想轻轻松松过节日,或者出去玩,除了做好备份之外,最重要的是做好容量规划。最基本的表空间、文件系统空间、历史告警等等基本情况横扫一遍,起码要能安全等到你休假回来。

对于一些特别的电商系统,节假日可能正是高峰期,那就不仅仅是空间这点事了,还要做好性能预测和解决方案预案。

四、备份恢复年年做

备份要做,恢复更要做。如果你是管理者,千万不要以为你的 DBA 一定会帮你做了。

不惊讶,以下是真实案例的脱敏数据:

如果是企业缺少相应备份设备或软件导致的, DBA 有义务督促领导购置恢复演练所需的软硬件设备。因为一旦出现意外, DBA 的直接领导往往也担不了这个责任,毕竟数据都保护不了,用户还怎么相信你这个企业,不论你是央企还是国企。

运维 DBA 的九项注意

三大纪律是规矩(Rules),八项注意是指导原则(Guidance)。

做运维的人,不能总说这个我们没想到,哎呀,没想到这也不行。这是爬雪山,过草地,不注意就陷进去了,哪里会留时间给你瞎 BB?

1、对生产环境心怀敬畏

你也许没听过“一个 tnsping 干翻 6 台 P595”,你也许没听过“一个 cp 命令让营业系统停止使用 30 分钟”,你也许没听过“建一个索引让所有核保业务不能用了”,你也许没听过“我本来是要 shutdown 我的虚拟机的,没想关生产库”… …

你没听过的事情很多,你没干过的事情更多,因为你还年轻。

但是一定要对生产环境心怀敬畏。

所有操作命令不是网上搜来就可以用的,你要尽可能搞清楚这个命令的副作用,这个命令下去最坏的可能,可能是什么?不懂的就虚心求教, DBA plus 社群这么多大牛,实在不好意思,就先砸个大红包过去再问。

2、保持 24 小时开机

做运维的没有彻底休假之说,不要以为你休假了就关机大吉了,那离你关门大吉也不远了。嗯,所以有些公司把这条也列为纪律之一。

我曾遇到过这样一个情况,某个 DBA 请假了,刚好有个环境的密码只有他知道,而这个环境现在出了点问题。可想而知,当时人是多么着急? 嗯,那个 DBA 休假回来就长时间离开现场了。

3、多请应用的人唠唠嗑

完全不懂业务的 DBA 不是一个合格的架构师。

要去懂业务、懂应用、懂服务,就一定要跟应用的人唠嗑、吃饭、抽烟,平时尊重人家,人家愿意跟你说,你就越来越熟悉业务。慢慢的,你就可以为推动业务采用更合适的架构方案。

4、不要在上班时间做普通变更

什么叫普通变更?就是你本来可以提前一天做的变更。

比如扩表空间、增加用户权限、创建索引……并非是为了解决紧急故障而导致的变更。

提前做好变更规划,尽量争取每次免考核时做完所有重要的变更。

5、定期做好数据库检查

数据库没有发生故障,不代表是 DBA 做得好,而是故障自己还没有发生,不是不报,实时候未到。

所以,确定好检查规则,定期做好数据库检查,并进行整改。涉及到其它配合方的整改一定要邮件抄送,并电话确认。

6、数据库部署要给予最小化权限

安装必要的最少组件,赋予必要的最小权限,是主动避坑的有效手段。很多数据恢复,操作问题,如果能够从权限上把把关,后面就能省很多事情。

7、所有的保障手段,都要去验证其持续可行性

  • 部署了高可用系统,上线前要做高可用切换测试。
  • 部署了容灾系统,要做定期容灾演练。
  • 部署了应急系统,要做定期应急演练。
  • 做了数据库备份,要做定期数据库恢复测试。

说起来容易,做起来难。全国 90% 的系统没有做到这一点。所以你才会经常听到异常恢复的案例。特别是哪些用存储容灾,或者用 OGG 应急的。不是技术本身不行,而是管理不行。

8、竭尽全力推行自动化运维

在看到这条之前,你也许心里一直在暗暗的骂道,都什么时代了,还这么古板。

其实不管你是否已经开始了自动化运维,前面的每一条都值得你好好去做好,对你有益无害。

但是,去做自动化运维,是运维 DBA 绕不开的路径。就像从昆明到上海,最开始是只能靠马帮,后来逐渐通了高速公路,现在开始沪昆高铁了一样。

这个自动化运维怎么做?完全靠自己重复造轮子显然不完全靠谱。如果你不是 BAT,也不是京东新美大饿了么,最好的方式,是找专业运维的公司研发的自动化运维平台,是骡子是马拿出来遛两下,你就喜欢上了。

9、起步始于交流,收获源于分享

做过讲师的人,都会有这样一个共识,就是讲完东西,自己其实比听课的“学生”收获更大。这一点互联网公司做得非常好,不管是BAT还是新的巨头,都纷纷成立技术学院,领衔的也往往是业界大佬,把企业内部的技术分享组织得有声有色。

作为传统企业的 DBA 来说,一家企业往往没有这么个学院,但是互联网上的平台很多,比如 DBA plus 社群,甚至还有其他一些社群都提供这样的机会。

为什么我们团队工作一年的新人,可以拥有其他公司工作四五年 DBA 所具有的能力,除了复杂的硬件环境外,每月的分享也功不可没。

运维没有尽头,注意事项也没有尽头,你有更好的建议,不妨说说。

本文作者:佚名

来源:51CTO

时间: 2024-10-29 20:28:10

运维DBA的四大纪律九项注意的相关文章

运维DBA的4大纪律9项注意

朋友们调侃说,运维是个把脑袋别在裤腰带上的活,更有人说,运维是个把脑袋别在他人裤腰带上的活,苦劳没人认,有锅就有得背!   测试的同学说,"吃瓜群众很难感知运维背后的付出,倒是出了事情更能体现我们的专业性."小样儿,你这是还没有掉坑里过.   所以,最好就是减少锅的出现.   但是,锅来了,大家就得背,甭管你是运维.产品.测试还是开发,总得有个人出来走一走,对吧?   今天我们就来谈谈运维DBA怎样少背锅.   运维DBA的形势是很恶劣,但再恶劣也比不过当年红军过草地.红军当年靠三大纪

架构设计 - 自动化运维之架构设计六要点

运维自动化是我们所渴望获得的,但是我们在一味强调自动化能力时,却忽略了影响自动化落地的一个关键因素.那便是跟运维朝夕相处,让人又爱又恨的业务架构. 因为业务架构是决定运维效率和质量的关键因素之一,所以我想跟大家一起聊一下怎么样的架构设计是对运维友好的.结合这些年在腾讯遇到的业务架构和做运维规划时对业务非功能规范的思考,我们可以把面向运维的架构设计分成六大设计要点. 要点一:架构独立 任何架构的产生都是为了满足特定的业务诉求,如果我们在满足业务要求的同时,能够兼顾运维对架构管理的非功能性要求.那么

Gdevops精彩不落幕,敏捷运维盛会圆满收官!(附PPT)

继杭州首站的盛大起航,北京.广州两站的持续升温,贯穿全年的"2016年全球敏捷运维峰会"于11月18日在上海圆满收官!这场意义非凡的收官盛会,特别设置了一个主会场和两个分会场,在总结目前IT运维转型困局与突破的同时,对未来敏捷.运维.云等技术领域的发展与革新指明了方向.   与此同时,万众瞩目的十大MVP评选也在峰会现场举行了隆重的颁奖仪式,本年度为技术圈作出非凡贡献的专家及团队悉数登台,星光璀璨,为2016年的Gdevops峰会画上圆满句点.   无论你错没错过这场收官盛会,这些现场

美团数据库运维自动化系统构建之路

美团点评技术沙龙由美团点评技术团队主办,每月一期.每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域. 目前沙龙会分别在北京.上海和厦门等地举行,要参加下一次最新沙龙活动?赶快关注微信公众号"美团点评技术团队". 本次沙龙主要围绕数据库相关的主题,内容包括美团数据库自动化运维系统构建.点评侧MySQL自动化服务平台RDS.美团数据库中间件.和小米高级DBA带来的Redis Cluster的大规模运维实践. 讲师简介 宁龙,美团网高级DBA,现负责美

回归一线应用运维的底线——先做好最基本的事

节回来梳理工作,有向好的地方,也有面临困难的地方.好的地方,是一体化运维的建设工作己步入正轨,团队里同学都很棒,都能以做产品的心态去拼.困难的地方,是应用一线生产保障的团队还是面临"被动.计划性不够"的现状,尤其是看到GitLab误删数据,5份备份全部无效的故障事件,更有种不踏实,自己也不敢肯定团队里的备份策略是否完整,永久备份内容是否可用,再进一步想想应用可用性的监控是否100%覆盖,基本的应急手册是否都完整可用.备机与灾备环境是否随时可用状态.操作是否100%合规也都可能成为一颗定

交通银行成为首个借助IBM系统运维云的银行

5月23日,在北京国家会议中心IBM云计算高峰论坛以"重塑IT,激发商业变革"为主题召开.在大会期间,IBM分享了中国石化集团.新奥集团.交通银行几组客户实践案例,云计算落地可谓掷地有声. 其中在交通银行的案例中,基于银行生产流程的先进BPaaS平台,在国内IBM为其率先打造数据中心"系统运维云",从而打造出了端到端的面向服务的系统运维流程平台,实现了对系统运维流程的有效梳理. 业务发展 力促银行IT运维变革 近十年来,中国的银行业获得了跨越式的发展,业务规模与业务

当当网资深DBA:DB运维四大现代化的实现

本文根据DBAplus社群第84期线上分享整理而成   讲师介绍赵钢 当当网资深DBA   OCP 9i认证专家,十年以上Oracle及Linux/HP-UX技术经验. 曾负责管理电信通讯话单数据库.中国移动短信营销数据库.足彩福彩支付数据库.多语种博客社区数据库.   各位好,今天我的主题是 <DB运维的四个现代化> ,看标题就能明白,是关于DBA自动化运维平台的事情.   主要是分享下我在当当想到做到的一些事情,很多都是兄弟们一起努力的结果, 这篇文章也是对我们工作进行一次总结,整个平台的

阿里巴巴DBA Team运维部简朝阳谈MYSQL技术

首先介绍下简朝阳.现就职于阿里巴巴(中国)网络技术有限公司DBA Team运维部, 简朝阳是本次MYSQL技术征文大赛第三名得主(获奖文章:MySQL Replication的实现原理).相信他的工作经验肯定会对现在即将进入DBA行业或者正在学习MYSQL技术的新人有所帮助. IT168:这次MYSQL技术征文获得第三名有什么感受,有什么经验心得与大家分享吗? 简朝阳:获得第三名,确实感到有点意外.对于我提交的稿件,主要是自己平时学习 MySQL 的时候所积累的部分笔记,也没有觉得多么的高深,所

高效运维之员工的四大误区及解决之道

这篇是<中生代>转载的一个关于运维的文章.作者是触控科技运维总监萧田国.文章在运维圈子流传甚广.特别也发在社区,分享给感兴趣的朋友. 前言 春节刚过,广大运维朋友又面临着新的挑战.让大家苦恼的是,我能力这么好,为什么不幸福?怎么能让工作不那么累心,怎么能多些成就感?甚至,还有机会幸福吗? 通常,幸福感很大程度来自于外部的认同(以及基于此的自我认同),例如外部门.领导或同事的赞赏.应该只有极少数的人,能在不被外部认同的情况下,还能自我陶醉(那该是何等强大的内心啊). 导致技术人员不幸福的原因不胜