从炉石传说数据库故障谈谈MongoDB的数据库备份和恢复手段

看到这个消息,我的第一反应是重新翻出尘封已久的ipad,装上炉石准备上线领补偿。等等,作为一个数据库行业从业人员,是不是还应该干点什么?恩,很有必要再重新审视一下我们的数据库有没有做好容灾,否则,今天你看别人热闹,明天可能就别人看你热闹了。借此机会我想给大家普及一下MongoDB数据库的备份和恢复手段(当然炉石传说应该不一定是使用MongoDB作为数据库),以帮助大家做好容灾,过个好年。同时,我也为我们阿里云MongoDB服务做下广告,我们的MongoDB服务拥有完善的自动备份/恢复功能,灵活的备份策略,好用的恢复到任意时间点功能。我们的备份存放了多份副本,可靠性达10个9,请大家放心使用!

MongoDB数据库备份手段

全量逻辑备份/恢复

Mongodump/Mongorestore

对于数据量比较小的场景,使用官方的mongodump/mongorestore工具进行全量的备份和恢复就足够了。mongodump可以连上一个正在服务的mongod节点进行逻辑热备份。其主要原理是遍历所有集合,然后将文档一条条读出来,支持并发dump多个集合,并且支持归档和压缩,可以输出到一个文件(或标准输出)(对原理感兴趣可以参见我之前写的两篇文章Mongodump的archive(归档)模式原理解析以及Mongorestore的archive(归档)模式恢复原理解析)。同样,mongorestore则是连上一个正在服务的mongod节点进行逻辑恢复。其主要原理是将备份出来的数据再一条条写回到数据库中。

对性能的影响

mongodump执行过程由于会遍历所有数据,因此会对MongoDB性能有影响,最好在备节点执行(最好是hidden,需检查备节点数据同步是否正常)。

获取一致的数据快照

在mongodump执行过程中由于数据库还有新的修改,直接运行dump出来的结果不是一个一致的快照,需要使用一个『–oplog』的选项来将这个过程中的oplog也一块dump下来(使用mongorestore进行恢复时对应要使用–oplogReplay选项对oplog进行重放)。而由于MongoDB的oplog是一个固定大小的特殊集合,当oplog集合达到配置的大小时旧的oplog会被滚掉以为新的oplog腾出空间。在使用『–oplog』选项进行dump时,mongodump会在dump集合数据前获取当时最新的oplog时间点,并在集合数据dump完毕之后再次检查这个时间点的oplog是否还在,如果dump过程很长,oplog空间又不够,oplog被滚掉就会dump失败。因此在dump前最好检查一下oplog的配置大小以及目前oplog的增长情况(可结合业务写入量及oplog平均大小进行粗略估计),确保dump不会失败。目前我们阿里云MongoDB服务针对oplog做了弹性扩缩容的优化,能够确保在逻辑备份过程中oplog不被滚掉,一定能够备份成功。

索引的备份和恢复

对于集合数据,mongodump出来的结果是一个个bson文件。而对于集合的索引,则是描述在一个metadata的json文件里,里面还包含创建集合时所使用的选项。在使用mongorestore进行恢复时,会在集合数据恢复完毕之后进行对应的索引创建。

全量物理备份/恢复

对于数据量很大的场景,如果使用mongodump/mongorestore进行备份和恢复,需要的时间可能会很长。对于备份来说,最主要的问题就是备份所需时间越长,oplog被滚掉的几率就越大,备份失败的几率也就越大。而对于恢复来说,由于恢复过程还涉及到索引的创建,如果除了数据量大,还有很多索引,所需花费的时间就更长了。遇到像炉石这种数据灾难,恢复时间当然是越短越好,毕竟在游戏行业分分钟的流水都很可观。这时候就需要物理备份出场了,物理备份,顾名思义就是通过物理拷贝数据文件实现备份。在恢复时可以直接使用物理备份拷贝出来的数据文件,直接启动mongod。物理备份最大的好处是速度快,恢复时也不需要再建索引。

实施方法

物理备份通过拷贝数据文件来实现,这要求所有被拷贝的数据文件必须是一个一致的数据快照。因此物理备份的实施方法和MongoDB采用的存储引擎有关,并且,根据是否配置MongoDB打开了Journal,在实施的细节上会有一些不同,具体可参考官方文档。不管使用何种存储引擎,在3.2版本之后,都可以用以下方法实现物理备份:

通过mongoshell执行以下命令以确保所有的写操作都flush到磁盘并禁止新的写入:


  1. db.fsyncLock(); 

利用底层文件系统层或逻辑卷的快照功能对MongoDB的数据目录做快照,或直接通过cp、scp、tar等命令拷贝数据目录。

还是在刚才的mongoshell上(这里需要保证和刚刚是同一个连接),执行以下命令以重新允许新的写入:


  1. db.fsyncUnLock(); 

由于执行db.fsyncLock()会加数据库的全局写锁,这时数据库会处于一个不可访问的状态,因此物理备份最好也在备节点上执行(最好是hidden,注意同样需要确保物理备份完成之后节点的oplog能追上主节点)。目前我们阿里云MongoDB团队已经研发出了无需停写服务的物理热备份手段,相信很快就可以让大家用上,尽请期待!

增量备份

MongoDB的增量备份可以通过持续抓取oplog来实现,这个目前没有现成的工具可以利用,需要自己代码实现。抓取oplog主要的难题也和使用mongodump进行全量备份一样,需确保要抓取的oplog不被滚掉。目前我们阿里云MongoDB服务实现了自动增量备份的功能,结合全量备份可以实现任意时间点恢复功能。

Sharding的备份/恢复

炉石是不分服的,因此它后面也有可能是使用分布式数据库。对于分布式数据库来说,备份和恢复比单机数据库更加复杂。分布式数据库包含多个节点,并且通常包含不同角色的节点。以MongoDB的Sharding集群为例,它包含一个保存元数据的config server以及若干个保存数据的shard。其中最主要的元数据就是数据在shard之间的分布情况。对于多个节点的备份,其中一个难题是保证所有节点备份的数据是同一个时间点的,常规采用的手段是停止外部写入后进行备份,这在互联网服务中显然不可接受。退而求其次,可以在停止接受同步的备节点上进行备份,这样可以得到一个时间大致接近的备份。另外一个难题是各数据节点之间通常存在数据迁移,而数据迁移就涉及到起码2个以上数据节点的数据修改以及元数据节点的数据修改,如果在备份过程中发生数据迁移,很难保证备份出来的数据和元数据是一个一致的状态。因此通常在备份过程中需要关闭数据迁移。MongoDB官方的文档指导步骤就是采用这个思路,先关闭负责数据迁移的balancer,然后依次在config server和各个shard的备节点上进行备份。关闭数据迁移最大的问题是关闭期间集群无法实现数据均衡,除了会影响集群的访问性能外,还造成资源的浪费,这在数据量较大,所需备份时间较长时可能造成比较大的影响。

针对这两大难题,我们阿里云MongoDB团队研发了不需要停外部写,并且无需关数据迁移的Sharding备份手段,能够实现『任意』时间点恢复,这个功能将伴随着即将推出的Sharding形态一起推出,尽情期待!

阿里云MongoDB备份服务

阿里云MongoDB服务提供自动备份/恢复功能,默认每天为数据进行全量备份,并且自动抓取oplog进行增量备份。用户可以在控制台自定义备份策略以及进行恢复。

恢复时可以选择某一个备份集或某一个时间点克隆出一个新的实例,可以在新实例上进行数据校验,等校验没问题后切换到新实例。此外,全量备份的数据还提供下载功能,用户也可以选择下载备份集到本地后恢复到一个临时实例进行数据校验。

总结

说了这么多,大家应该对MongoDB的备份/恢复手段有了一个大概的认识。如果要图省心,还是建议直接使用阿里云MongoDB服务,我们有自动化的备份/恢复服务,灵活的备份策略,只需点点鼠标就能用上任意时间点恢复、物理热备份、Sharding备份/恢复这些黑科技,从此不再为数据库容灾发愁,业务你们做,锅有我们来背,还等什么呢,快来试用吧!

本文作者:郑涔

来源:51CTO

时间: 2024-10-18 06:50:15

从炉石传说数据库故障谈谈MongoDB的数据库备份和恢复手段的相关文章

MongoDB的数据库如何备份和恢复?

MongoDB数据库如何备份?恢复MongoDB数据库应如何操作?最近数据库多灾多难,这些问题也成为开发者关注的重点.2016年12月爆出MongoDB数据库安全问题(见MongoDB黑客赎金事件解读及防范).2017年1月又被炉石传说数据库故障给刷屏了.作为一个数据库行业从业人员,看到这个新闻是不是还应该干点什么?恩,很有必要再重新审视一下我们的数据库有没有做好容灾,借此机会给大家普及一下MongoDB数据库的备份和恢复手段.   MongoDB数据库备份手段 全量逻辑备份/恢复 Mongod

HP-EVA4400故障导致的oracle数据库丢失的恢复过程

一.故障描述 整个EVA存储结构是由一台EVA4400控制器,三台EVA4400扩展柜和28块FC 300G硬盘构成的.由于两块磁盘掉线导致存储某些LUN不可用,某些LUN丢失.由于EVA4400是因为某些磁盘掉线,从而导致整个存储不可用.因此接收到磁盘以后北亚工程师先对所有磁盘做物理检测,检测完后发现没有物理故障.接着使用坏道检测工具检测磁盘坏道,发现也没有坏道.磁盘坏道检测日志如下: 图一: 二.备份数据 考虑到数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,以防万一操作不

阿里云MongoDB Sharding备份和恢复服务深度解密

大数据时代,数据保存的重要性不言而喻.在数据保存过程中,数据的备份更是一个值得深入研究的课题.在3月12日下午举行的MongoDB杭州用户交流会上,阿里云技术专家明俨分享了MongoDB Sharding备份和恢复的技术解密.他通过介绍不同的备份方法及备份的主要问题等方面来阐述阿里云在MongoDB Sharding备份和恢复方面所做的工作. 在"MongoDB Sharding杭州用户交流会"上,阿里云技术专家明俨分享了MongoDB Sharding备份和恢复的技术解密.他通过介绍

在C#中运用SQLDMO备份和恢复Microsoft SQL Server数据库

server|备份|恢复|数据|数据库 在C#中运用SQLDMO备份和恢复Microsoft SQL Server数据库 SQLDMO(SQL Distributed Management Objects,SQL分布式管理对象)封装了Microsoft SQL Server数据库中的对象.SQLDMO是Microsoft SQL Server中企业管理器所使用的应用程序接口,所以它可以执行很多功能,其中当然也包括对数据库的备份和恢复. SQLDMO由Microsoft SQL Server自带的

关于炉石传说的Oracle数据库故障不要以为你也可以幸免

最近暴雪公司和网易的一则声明刷爆了朋友圈,大意就是由于『供电意外中断的原因而产生故障,导致数据损坏』,这样一则公告引发了一系列的猜想,我们在围观时仿佛人人都是诸葛亮,而事实上设身处地,我想在一次负责任的故障考验下,也许很少有人能够幸免. 如同阿里云会误删文件.京东会泄露数据.支付宝会被修改密码.携程会大面积瘫痪,在灾难来临之前,谁都会觉得自己是幸运者,而事实上,只是措手不及那次灾难还没有来到而已. 先回顾一下<炉石传说>长长的公告,然后我们再基于事实做一下分析吧: 首先,关于暴雪的核心数据库架

炉石传说罕见数据库事故!丢失30%数据,疑似误操作?

引言   看到我这标题,千万别以为我是故意为了吸引你的眼球,而是官方这么说的哦:     这里用到个词-"回档",今天第一次听说,最开始不理解啥意思,接着恍然大悟,不就是Oracle 9i开始提供的新特性Flashback么!   你的朋友圈是不是也被刷屏了   昨天大概6点左右开始,我的朋友圈被刷屏了.     结合贴吧的一些留言,简单回顾下大体过程:   1月14日15:20开始,数据库由于供电异常中断,数据损坏. 接着数据库带病工作2天. 1月16日凌晨开始进行修复维护. 1月1

MongoDB云数据库常见问题诊断

重要的内容 MongoDB的主备节点在运行过程中是不固定的,实例重启.升级.节点故障等都有可能导致主备切换,在生产环境应该使用副本集的方式来正确连接MongoDB来实现高可用. 连接问题 用户可通过DMS或mongo shell连接MongoDB云数据库,以下场景都基于用户使用mongo shell连接数据库. Q: 连接实例提示网络超时? # /u01/mongodb_current/bin/mongo --host dds-uf69ba5cf6e123442.mongodb.rds.aliy

28个MongoDB NoSQL数据库的面试问答

MongoDB是目前最好的面向文档的免费开源NoSQL数据库.如果你正准备参加MongoDB NoSQL数据库的技术面试,你最好看看下面的MongoDB NoSQL面试问答.这些MongoDB NoSQL面试问答涵盖了NoSQL数据库基本的概念,复制(Replication),分片(Sharding),事务和锁,跟踪分析工具(Profiler),Nuances和日志等特性.让我们看看下面的这些MongoDB NoSQL数据库的面试问答吧: 1. 你说的NoSQL数据库是什么意思?NoSQL与RD

SQLServer 数据库故障修复顶级技巧之一

所有这些技术都能够作为维护一个备用服务器的手段,同时这个数据库可以在你原先的主数据库出问题时上线并作为新的主服务器.然而,你必须记住的是将备用服务器替换上线只是完成了一半的故障修复工作. 要保证你的应用正常工作,在数据库外部还有许多注意事项.这其中包括登录信息.数据库用户.调度任务.DTS 和 SSIS 包.可执行文件.系统数据库中的对象.同名数据库.链接服务器等等. 有时这些细小的依赖只有在你进行一个数据库故障恢复时才会发现,这样你又不得不花费大量时间进行调试和评估导致这个问题的根源.此外,你