骞云科技:假如GitLab使用CMP管理PostgreSQL

  • 事件概览

1月31日晚上,GitLab通过Twitter发文承认生产环境数据因为UNIX运维的误操作,已经被彻底删除,大致的事情经过是一名系统管理员在荷兰工作到深夜,在他发现GitLab的备用数据库db2无法写入后,为了能让数据库复制可以继续,疲惫不堪的他经过分析后决定清除db2.cluster.gitlab.com中的备用数据库db2,不幸的是他选错了数据库的服务器,他把生产服务器db1.cluster.gitlab.com中的db1数据库目录删除了,这是一个含有300GB活动生产数据的目录,其中大部分数据已丢失。GitLab随后在Blog中补充说明已挽回大部分数据,并在YouTube上开启直播,将恢复工作全部公开。

  • 事件引发的思考

此事一出,在整个IT界掀起了轩然大波,骞云科技(www.cloudchef.io)认为,在关心事态进展的同时,我们更应该思考出现这类问题的原因以及今后如何防范、处理。

首先,我们可以了解到,在这一过程中,GitLab的系统管理员出现了以下失误:

1. 在错误的机器上执行删除操作, rm -rf,应该在备用Postgres所在的机器上进行删除操作

2. 在文件系统中直接删除数据库文件目录,应该是执行数据库的操作清空数据库

3. 备份缺乏验证的错误,GitLab部署的5套备份/复制方法中,没有一套在可靠运行或当初设置正确

假如Gitlab用了自动化的手段来管理他的数据库,而不是在生产线上敲键盘这样的人肉运维,结果又会如何呢?一个公司运维能力的强弱和线上环境敲命令是有关的,你越是喜欢上线敲命令你的运维能力就越弱,越是通过自动化来处理问题,你的运维能力就越强。真正良性的运维能力是——人管代码,代码管机器,而不是人管机器。

  • 使用CMP来管理数据库

在传统的运维中,系统管理员一般会用终端窗口远程登录管理的机器,然后运行各种脚本进行运维操作,这种管理依赖于系统管理员本身去区分什么时候应该在哪台机器的应用上进行操作,当管理到多个机器,系统管理员需要在多个终端下切换。对于系统管理员,为了不出错,他要做到的事情很多,例如:

1. 必须时刻牢记哪台机器上部署了哪个应用,是生产环境的应用还是备份环境的

2. 必须清楚的知道,当前应用处于什么状态,能进行什么操作

3. 必须清楚的知道各个应用之间的关系,当要在一个应用上运行脚步时,对别的应用会造成的影响

在这个过程中,任何一步都不可以出错,单单依靠人力很难保证。

针对企业IT基础架构管理与运维中出现的问题,Gartner提出CMP(Cloud Management Platform,云管理平台)的解决方案,并指出了CMP的发展历程:

作为以应用为核心的第三代CMP的代表,骞云科技(www.cloudchef.io)在SmartCMP中引入了组件与蓝图的概念,组件是对一个可部署的应用的抽象与建模,组件有自己的生命周期,从创建、配置、启动、停止到销毁,在它生命周期的每个阶段,都可以有对应的操作(也就是可执行的脚本文件)和它绑定关联,这些操作都是预定义好的,在投入生产环境前就已经进行过验证。以定义PostgreSQL数据库组件为例,可以定义它在创建、配置、启动、更新参数、清空以及备份等阶段的操作。

下面的图例给出了在SmartCMP中PostgreSQL的组件定义:

通过这一定义,即使是非专业的数据库管理员,也可以执行这些预定义的简单明了的操作。

在实际的生产环境中,部署在一台机器上的单一组件是不够的,例如PostgreSQL,一般需要提供复制(Replication)或者集群(Cluster)的功能,GitLab就使用到了PostgreSQL的复制功能,也随之产生了这次的运维问题。对应的,CMP中的蓝图对这些功能可以进行抽象的描述,同时,CMP的编排引擎会依据蓝图中的抽象进行部署和组件操作的执行。

以PostgreSQL复制功能为例,如下图所示,PostgreSQL被部署在了DatabaseServer这个虚拟机中,同时在ReplicationDatabaseServer虚拟机中部署了备用PostgreSQL,绿色的虚线标示出了它们之间的依赖关系。当PostgreSQL按照蓝图被实际部署后,各个组件遵从蓝图中预定义的关系,用户可以选中某一个组件,得到该组件可执行的操作列表,然后执行某一个操作。

回到Gitlab运维中出现的问题,Gitlab的系统管理员在使用CMP后,如果发现db2.cluster.gitlab.com中的备用数据库db2无法写入,在蓝图中选择备用PostgreSQL,进行数据库清空操作,SmartCMP在进行这种破坏性的操作前,会自动先给db2所在的虚拟机db2.cluster.gitlab.com创建一个快照,然后再进行相应的操作。如出现Gitlab公开的描述中所说的清空后备份数据库db2仍然不能写入,我们可以在操作列表中选择删除db2后再安装,这样就会生成一个全新的备用数据库,当然,在删除和安装前,SmartCMP都会自动创建虚拟机快照以防止意外发生。

试想一下,如果Gitlab的系统管理员在CMP中仍然犯错选择了对生产数据库进行清空或者重装操作,那么在他发现问题后可以立即从快照中恢复原有的数据。

显而易见,CMP模块化了运维管理,将具体的操作和组件进行了绑定,尽可能的降低了各个组件之间的耦合,简化了运维的难度。

随着自动化运维和开发运维一体化的快速普及,企业唯有借助以应用为核心的云管理平台,实现从部署到管理(包括监控、报警、备份、恢复等环节)的完整生命周期管理,才能真正地提高工作效率与操作的合规性,避免Gitlab类似事件的发生。

本文作者:佚名

来源:51CTO

时间: 2024-09-20 00:17:20

骞云科技:假如GitLab使用CMP管理PostgreSQL的相关文章

骞云科技携手 EMC,联袂打造超融合基础架构云管方案

近日,骞云科技(www.cloudchef.io)与  EMC 联手打造的「 EMC VxRail 超融合基础架构与骞云 SmartCMP 云管理平台解决方案」正式发布,并同步推送至 EMC Global Wide.SmartCMP与VxRail的此次联手,可以称的上是珠联璧合,相得益彰.在这次发布的解决方案中,提供了如何帮助企业IT人员更高效完成从物理硬件到应用再到服务的一个完整实施流程,是混合云平台和超融合基础架构产品集成和发展的一个重要里程碑.  关于VxRail VxRail 是一款全面

骞云科技SmartCMP v3.0正式发布!

经过近6个月的不懈地开发,骞云CloudChef(www.cloudchef.io)于2017年3月1日正式发布SmartCMP v3.0版本. 骞云SmartCMP云管理平台是以应用交付为核心的新一代云管理平台.SmartCMP可以整合公有和私有异构云环境(VMware vSphere/OpenStack/Docker/阿里云/AWS等)下的所有云资源,并提供IaaS. IaaS+和PaaS的服务,并实现应用服务的自助式交付.自动化部署和管理.通过SmartCMP即可管理企业所有的云工作负载,

天云科技上海分公司获得首例“对外运营的电信级公有桌面云系统”

继建设上海"光网城市"计划大手笔之后,上海电信经过缜密研究与评测,率先提出建设"对外运营电信级的公有桌面云系统"工程,这在国内外技术上.业务上和商业模式上都是创新.其通过宽带网为中小企业提供"云呼叫中心","中小企业云桌面",为http://www.aliyun.com/zixun/aggregation/6327.html">家庭用户提供"云桌面"系统.多年来,上海电信在技术和市场的大胆创

天云科技打造出中国首个公有桌面云系统

来自天云科技的喜讯:天云科技上海浦东软件园<公有桌面云系统项目>于11月17日通过最终验收,中国首个公有桌面云诞生并已对外运营! 11月17日下午三点,上海浦东软件园<公有桌面云系统项目>最终验收会议在上海浦东软件园http://www.aliyun.com/zixun/aggregation/7494.html">股份有限公司9楼第三会议室召开,北京天云融创科技有限公司高级副总裁王琦以及项目组成员胡振宁.方志杨.董俊凯.王晓伟和上海浦东软件园股份有限公司验收项目小

「一问」驻云科技架构云:如何帮助企业更好的完成云计算部署

马云曾在演讲中说过,人类正在从 IT 时代走向 DT 时代.而 DT(数据处理技术)中很重要的一块就是云计算. 过去的一年中,已经有越来越多的企业开始把自身的资源部署到云端,国内的云计算市场也有阿里云,AWS 等等提供底层云服务的厂商.不过很多企业的 IT 能力有限,并不能很好的完成到云的迁移,同时也缺乏一个在这些底层云服务之上的统一资源管理平台. 驻云科技 所要解决的正是市场中的这一痛点,在公有云和企业的私有 IT 资源上建立一个统一的平台,提供解决方案,帮助企业完成私有资源向云端的迁移,管理

以云计算的名义 驻云科技牵手阿里云

本文讲的是以云计算的名义 驻云科技牵手阿里云一次三个公司的牵手 可能会改变无数企业的命运 2017年4月17日,对于很多人来说可能只是个平常的工作日,但是对于国内无数的企业来说却可能是个会改变企业命运的日.驻云科技联合国内云服务提供商阿里云及国外知名机器学习及IT云服务公司ServiceAide,共同举行了战略合作签约仪式暨新闻发布会,并宣布将会在国内携手推出集机器学习.大数据处理及云计算于一身的下一代IT服务管理系统-Cloud Service Management (CSM).三方的成功牵手

驻云科技首席架构师肖凯:要融合云,不要混合云

混合云是当前企业云化的主流思路,但反对者认为,混合云并不能反映中国云计算市场的实际需求.驻云科技COO兼首席架构师肖凯表示,目前多个公有云混合的需求并不明显,企业关注的其实是公有云和内部部署IT集成的"融合云". 肖凯日前接受了记者的采访,给出了他对企业业务迁移到云服务的建议,并介绍了驻云科技相关产品和服务的设计理念.他表示,云计算的未来是公有云,私有云一定没有前途,但目前确实存在一些因素导致中国企业不可能直接完全迁移到公有云上,所以用户对所有的IT资源是需要一个统一的资源管理平台的.

国网信通与天云科技签署云计算战略合作框架协议

北京讯 -2011年5月20日,国网信通与北京天云科技今天在北京亦庄祥云基地共同签署云计算战略合作框架协议,宣布将进行深度合作,在基础设施.软件开发和平台打造方面加大合作研发及市场推广力度,从而促进云计算产业链的完善,共同推动云计算技术的发展和应用. 宽带资本董事长田溯宁.北京云基地董事长赵安建.国网信通党委书记王广辉.国网信通总经理刘建明等人共同出席了签约仪式. 根据框架协议,国网信通与天云科技将继续发挥自去年8月份首次合作建立电力云仿真实验室的成功优势,继续整合双方的核心优势,将在以下几个方

白山云科技:首创“乐高式松耦合”架构 提供像拼积木一样的云分发服务

国内这两年云计算的发展,让很多人看准了其中各个垂直领域的创业方向.相较行内的老牌厂商,白山云科技(以下简称白山)尚处创业阶段.这家成立于2015年4月的国内首家云链服务提供商,以云分发为切入点,为企业客户提供高效数据内容应用与交换的定制化服务.截止到目前,白山已完成B轮融资,已签约包括今日头条.美团.秒拍.搜狐.汽车之家.暴风集团等两百多家大中型互联网企业客户. 所谓"云链"(CCX),是白山率先在中国市场引入的服务,其核心是建立数据与数据的连接,为数据的产生.传输.消费和归档提供完整