岁末警示:当你手抖删了线上数据库..

编辑手记:这是一篇写在2016年初的旧文,岁末再次与你共享,愿你的系统安然无恙。本文转载自高效运维社区。

作者简介:


一乐,aka 梁宇鹏

现任环信首席架构师兼IM技术总监,负责即时通讯云平台的整体研发和管理。曾任新浪微博通讯技术专家,负责微博通讯系统的设计与研发。

2016年1月18日,新年刚过,距离噩梦的圣诞节已经过去三周。已经好多天没有线上报警,群里一片安静,大家都在享受这份宁静与安逸。唯一不一样的是,有集群的迁移工作要做,相关人员干劲十足,已经连续三天通宵。按照惯例,为了保险起见,线上操作都在夜里进行。

如果说这几天最怀念的时光,也许就是这一天了,因为在第二天,我们的一个线上数据库出了问题。

19日上午10点,陆续有用户抱怨,一个接口的数据丢失,而之前删除的数据又出现了。这时候我们的运维同事贴出一个截图,发现有一个数据同步的进程,从凌晨五点开始运行,把线上数据库覆盖,数据一夜回到了解放前!

好在运气好,在这个覆盖发生之前,有一个备份。

修复工作马上展开,先把主从切断,主库利用备份数据重启,从库用来进行比对,恢复增量数据……(部分内容由于当地政策,未予显示)

然而事情并没有结束。这时候内部出现了一个声音高喊,我们一定要惩罚!惩罚这个人,让他知道服务稳定性的重要!

有没有觉得似曾相识?类似的情况其实经常发生。而很多事情就是这样,好像是日常中的一个插曲,却对团队和公司的发展产生着微妙又长远的影响。

是的,我说的是惩罚。

让我们看看惩罚是做什么的

以儆效尤?如果当事人玩忽职守,故意破坏,也许有一些作用。我这里用了也许,因为真出现这种情况的话,可能不是惩罚就够了的。但如果价值观没有问题,这点却未必有效。因为事故已经可以对当事人造成足够压力,增加罚款并没有什么必要。

解气么?公司变大必然出现分工,而各个团队之间的沟通也会变弱。每出现一个问题,其实都是整个公司的问题,用户需要安抚,市场需要维护。这时候就很容易发出一种声音,你看你总给我们添麻烦。这种指责和随后的处罚除了让发声的人心里痛快,该做的事情并没有减少。

它们并没有创造什么价值,却带来了很多你不想要的东西。

更差的工作表现。因为惩罚带来的畏首畏尾,以及随之而来的挫败感,都会让一个人的工作效率大打折扣。

错误的工作态度。谁都知道疲劳作战效率不高容易出错,既然多做多错,少做少错,为什么要去加班加点赶什么进度呢?多一事肯定不如少一事。

隔阂的团队。出了问题就开始指责,那出问题之前的加班加点为了谁呢?一个彼此间互相信任的团队与一个互相防备的团队,差距也是显而易见。

最重要的是,它让技术团队偏离了对技术的追求,而把目光收回到内部关系上,这自然会放慢前进的步伐,这对创业公司将是致命的。

速度是小公司取胜竞争对手直至打败大公司的关键。

不要惩罚不意味着拒绝进步

我们这么做,是因为我们也相信,促使个人和团队成长的,应该是团队的荣誉感和为之努力的心,而不是对惩罚的恐惧。

但我们也不能停在这个地方。如果连自己的教训都无法总结并长成经验,也注定是悲剧的。所以还是回归本初,看看真正想要的是什么。

我们想要的,不过是避免类似事情的发生。

先看一则旧闻。

2015年10月20日,德意志银行外汇部门的一名初级交易员将一订单中的「净值」错误处理为「总额」,令德意志银行向一家美国的对冲基金客户白白送出了60亿美元。 http://wallstreetcn.com/node/224923

这种输入上的低级错误,金融业里叫胖手指,而避免的最重要的方法就是两人法则,我也更喜欢它第二个名字,四眼原则(four eyes principle)。
https://en.wikipedia.org/wiki/Fat-finger_error

它提醒了我们,在关键业务上需要有人结对。鉴于现在工作的远程状态,我们使用了Tmux的会话共享模式,两个人可以通过相同的会话来共享控制台以及键盘输入。

技术可以做到更多

四眼原则用来做紧急措施是可以的,但毕竟有交互成本。而人在精确性上天生不如机器,因此要确保问题不再发生,还要用一些技术手段才行。

由于命令执行的是一个历史命令,而出错的运维人员进入了一个前人遗留的Tmux会话,或者是按了向上或者是进入时的回车直接执行了CTRL-R留下的命令。于是我们

修改了数据恢复的命令,强制进行二次确认;
对危险命令进行了别名处理;
禁止了Tmux的默认session,使用Tmux的人员强制使用别名。

所以你看,人的问题也可以用技术手段来解决。

技术驱动和技术导向

互联网发展仍是日新月异,挑战无处不在。要想变挑战为机遇,只有创新和技术才有可能。只有重视技术的公司,才能充分发挥技术人员的能动性,也将更容易在技术的竞争中胜出。

我们经常开玩笑,很多公司,做不到技术驱动,因为他的每一步都是领导提出领导拍板,它只能叫领导驱动。而如果一个公司在遇到事情之后就总是想到惩罚,不注意保护和发挥技术人员的能动性,技术导向也只能是一个口号。

说到底不过一句话。一个团队或公司,要变成什么样子,跟她迈出的每一步都有关系。

毕竟罗马不是一天建成的。

文章转自数据和云公众号,原文链接

时间: 2024-10-22 17:07:24

岁末警示:当你手抖删了线上数据库..的相关文章

逗逼员工手抖点错 高盛愣是让谷歌把邮件删了

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 故事的起因是这样的:高盛的公司邮箱后缀是 @gs.com,谷歌邮箱的后缀是 @gmail.com.自动完成功能大家熟吧?好了,现在有一个高盛员工在发邮件输入收件人地址时候手抖了,到了 g 的时候就选了 @gmail.com,接着这个逗逼又手滑了,顺势就点了发送. 于是就悲剧了--邮件发到了一个用户名一样的 Gmail 邮箱里! 如果是别家也就

何润东和周润发对手戏手抖脚软变小影迷(图)

何润东匆匆从深圳赶来香港,见证新一年的来临. 新浪娱乐讯 北京时间2011年1月3日,据香港媒体报道,何润东在娱乐圈打滚多年,可谓见惯大场面,没想到碰上国际巨星周润发时,竟像小影迷般,手抖兼脚软,非常搞笑! 何润东.黄宗泽.陈静.港男翟威廉和日模松冈李那等,日前出席上水广场举行的<大中华群星闪烁迎2011>活动.匆匆由深圳赶来港的何润东,获大批影迷到场支持,他更与新鸿基地产代理有限公司租务部高级推广经理刘文豪一同倒数,而何润东在港居住的舅父也特别前来,与他见证新一年的来临. 正忙于北京拍摄新片

一个purge参数引发的惨案——从线上hbase数据被删事故说起

一个purge参数引发的惨案--从线上hbase数据被删事故说起 在写这篇blog前,我的心情久久不能平静,虽然明白运维工作如履薄冰,但没有料到这么一个细小的疏漏会带来如此严重的灾难.这是一起其他公司误用puppet参数引发的事故,但是这个参数我也曾被"坑过". 先说说这起事故,在周二下午,安静了一天的某个技术交流群,突然有个惊慌失措的同学在群里说,他拿第三方的puppet hbase module来管理线上hbase集群,结果这个模块在管理数据文件夹时,使用了一个purge参数把几乎

“手游”大热沾上就涨

摘要: 网民上网结构 上周五,首家手游概念股 拓维信息 披露中报显示,上半年手游业务收入约2300万元,同比增长超过20倍.但上半年公司净利润1882.49万元,较上年同期减少19.04%.手游概念的 网民上网结构 上周五,首家手游概念股拓维信息披露中报显示,上半年手游业务收入约2300万元,同比增长超过20倍.但上半年公司净利润1882.49万元,较上年同期减少19.04%.手游概念的炒作已经被一些人士形容成"巨大的泡沫,裸奔"等.一些热门个股普遍市盈率很高,中青宝248倍.拓维信息

天舟文化线上游戏线下图书 通过手游增厚业绩

以前机构喜欢"吃药喝酒",现在热衷于"上网.看电影.打游戏".今年以来,手游无疑成为资本市场又一炙手可热的香饽饽. 经<证券日报>记者统计,今年以来, 博瑞传播.中青宝. 掌趣科技. 神州泰岳.华谊兄弟.凤凰传媒.天舟文化等7家A股上市公司均有并购游戏公司的动作,涉及资金60余亿元.而伴随市场对手游概念的 跟风炒作,这些公司的股价也随之一涨再涨. 与其他公司不同的是,天舟文化收购神奇时代可谓"绝处逢生".在2013年净利润同比大幅下滑

线上游戏线下图书天舟文化押宝手游增厚业绩

天舟文化董事长肖志鸿:公司收购神奇时代并不局限于做手机游戏,更主要的是从传统出版向数字出版.移动互联网的拓展 ■本报记者 陈妍妍 以前机构喜欢"吃药喝酒",现在热衷于"上网.看电影.打游戏".今年以来,手游无疑成为资本市场又一炙手可热的香饽饽. 经<证券日报>记者统计,今年以来,博瑞传播.中青宝.掌趣科技.神州泰岳.华谊兄弟.凤凰传媒.天舟文化等7家A股上市公司均有并购游戏公司的动作,涉及资金60余亿元.而伴随市场对手游概念的跟风炒作,这些公司的股价也随

旗下手游产品《指上谈兵》正式签约CMGE中国手游作为国内代理

DoNews游戏11月18日消息 骏梦游戏11月18日宣布,旗下手游产品<指上谈兵>正式签约CMGE中国手游作为国内代理,代理金额达1500万. 骏梦游戏CEO许斌(左)与中国手游集团豆玩游戏CEO梅孝龙(右) <指上谈兵>是由骏梦游戏自主研发的一款2D即时攻防战略游戏,这是骏梦旗下首款移动游戏产品.骏梦表示,选择CMGE中国手游作为代理商,是看中了CMGE中国手游的发行实力和渠道网络,仅从2013年年中开始, 中国手游集团 流水千万级以上游戏已经超过5款. 骏梦游戏CEO许斌表示

移动开发者如何不为“手抖点到广告了”掏钱

借我一双慧眼吧,这么多广告,太容易手抖,哪些点击是真的有效?移动设备用户常常手一抖,点到了广告,殊不知,用户的无心之举却令移动开发者付出惨重代价,让他们有苦难言.要想将这种损失降至最小程度,关键是开发者在竞标广告前,应该确保今后能对数据来源等重要信息了如指掌.研究发现,在用户点击移动广告时,22%是无心之举.虽然用户有时因这种无心之举,也会购买商家的产品,但发生这种情况的概率几乎可以忽略不计,只会导致广告预算白白浪费.此外,用户的无心之举不仅会让广告印象数大打折扣,而且还会让广告主付出人力等方面

总经理签订单为何手抖

工人们马不停蹄地在生产线上忙碌着:可原材料价格波动等仍让大家心惊胆颤. 本刊记者 潘敏敏 最近几个月,宁波海星塑料机械制造有限公司总经理陈兴良非常忙,企业订单接连不断,工人们天天马不停蹄地在生产线上工作着,加班已经是家常便饭了. "我吃塑机行业这碗饭已经41年,说实话,企业生产从来没像今年这么好过,比以往任何时候都要好."陈兴良兴奋地对<浙商>记者表示,"企业的订单已经接到3亿元了,今年可以达到人均产值150万元,我们都是24小时运转的,整个企业达到了满负荷生产.