MongoDB 如何保证 oplog 顺序?

MongoDB 复制集里,主备节点间通过 oplog 来同步数据,Priamry 上写入数据时,会记录一条oplog,Secondary 从 Primary 节点拉取 oplog并重放,以保证最终存储相同的数据集。

oplog 主要特性

  • 幂等性,每一条oplog,重放一次或多次,得到的结果是一样的;为实现幂等 mongodb 对很多操作进行来转换,比如将 insert 转换为 upsert、$inc 操作转换为 $set等等。
  • 固定大小(capped collection),oplog 使用固定空间存储,当空间满了时,会自动删除最旧的文档。
  • oplog 按时间戳排序,并且在所有节点上顺序保持一致

本文主要介绍MongoDBD 如何保证 oplog 有序存储并读取,关于 oplog 扩展阅读

  • 阿里云MongoDB数据库的自适应oplog管理
  • MongoDB 3.2删除优化策略
  • MongoDB Secondary同步慢问题分析
  • MongoDB Secondary同步慢问题分析(续)
  • MongoDB同步原理解析

并发写 oplog 时,如何加锁?

Primary 上写入文档时,首先对写入的 DB 加写意向锁,再对集合加写意向锁,然后调用底层引擎接口写入文档,对 local 数据库加写意向锁,对oplog.rs集合加写意向锁,写入 oplog。关于MongoDB 多层级意向锁的机制,参考官方文档

Write1

DBLock("db1", MODE_IX);
CollectionLock("collection1", MODE_IX);
storageEngine.writeDocument(...);
DBLock("local", MODEX_IX);
CollectionLock("oplog.rs", MODEX_IX);
storageEngine.writeOplog(...);

Write2

DBLock("db2", MODE_IX);
CollectionLock("collection2", MODE_IX);
storageEngine.writeDocument(...);
DBLock("local", MODEX_IX);
CollectionLock("oplog.rs", MODEX_IX);
storageEngine.writeOplog(...);

如何保证Primar上oplog 顺序?

基于上述并发策略,在多个写并发的情况下,如何保证 oplog 顺序?

oplog是一个特殊的 capped collection,文档没有_id字段,但包含一个 ts(时间戳字段),所有 oplog 的文档按照 ts 顺序存储。如下是几条 oplog 的例子。

{ "ts" : Timestamp(1472117563, 1), "h" : NumberLong("2379337421696916806"), "v" : 2, "op" : "c", "ns" : "test.$cmd", "o" : { "create" : "sbtest" } }
{ "ts" : Timestamp(1472117563, 2), "h" : NumberLong("-3720974615875977602"), "v" : 2, "op" : "i", "ns" : "test.sbtest", "o" : { "_id" : ObjectId("57bebb3b082625de06020505"), "x" : "xkfjakfjdksakjf" } }

以 wiredtiger 为例,在写入 oplog 文档时,会以 oplog 的 ts 字段作为 key、文档内容作为 value,写入一条 KV 记录,wiredtiger 会保证存储(btree 或 lsm 的方式都能保证)的文档按 key 来排序,这样就解决『文档按 ts 字段顺序存储』的问题。但仍然存在并发乱序的问题,例如:

并发写入多条 oplog时,时间戳分别是ts1、ts2、ts3 (ts1 < ts2 < ts3 ),ts1、ts3先成功了,这时Secondary 拉取到这2条 oplog,然后 ts2才写成功,然后 Secondary 再拉取到ts2,也就是说 Secondary 看到的 oplog 顺序为ts1、ts3、ts2,就会出现 oplog 乱序的问题。

MongoDB(wiredtiger 引擎)的解决方案是通过在读取时进行限制,保证Secondary 节点看到一定是顺序的,具体实现机制如下:

  1. 写入 oplog前,会先加锁给 oplog 分配时间戳,并注册到未提交列表里

    lock();
    ts = getNextOpTime(); // 根据当前时间戳 + 计数器生成
    _uncommittedRecordIds.insert(ts);
    unlock();
    
  2. 正式写入 oplog,在写完后,将对应的 oplog 从未提交列表里移除
    writeOplog(ts, oplogDocument);
    lock();
    _uncommittedRecordIds.erase(ts);
    unlock();
    
  3. 在拉取 oplog 时
    if (_uncommittedRecordIds.empty()) {
        // 所有 oplog 都可读
    } else {
        // 只能到未提交列表最小值以前的 oplog
    }
    

通过上述规则,最终保证Primary 上 oplog 按 ts 字段存储,并且 Secondary能按序读取所有 oplog。

如何保证 Secondary 上 oplog 顺序与Primary 一致?

Secondary 把 oplog 拉取到本地后,会多线程重放,最后在一个线程里将拉取到的 oplog原样写入本地的 local.oplog.rs集合,这样就保证 Secondary oplog 最终与 Primary 上完全相同。

时间: 2024-08-04 09:28:11

MongoDB 如何保证 oplog 顺序?的相关文章

MongoDB Primary 为何持续出现 oplog 全表扫描?

线上某 MongoDB 复制集实例(包含 Primary.Secondary.Hidden 3个节点 ),Primary 节点突然 IOPS 很高,调查后发现,其中 Hidden 处于 RECOVERING 状态,同时 Priamry 上持续有一全表扫描 oplog 的操作,正是这个 oplog 的 COLLSCAN 导致IO很高. 2017-10-23T17:48:01.845+0800 I COMMAND [conn8766752] query local.oplog.rs query: {

修改mongodb oplog size

转载地址:http://blog.csdn.net/huwei2003/article/details/43307647 修改mongodb oplog size oplog简介: oplog:operations log的简写,存储在一个特殊的数据库中(local),oplog就存储在其中的oplog.$main集合里面,这个集合是一个固定集合,新操作会自动替换旧的操作,以保证oplog不会超过预设的大小,其中的每个文档都代表主节点上执行的一个操作,oplog会包含所有对数据有修改的的操作(查

MongoDB管理:副本集创建集合时慎用{autoIndexId: false}选项

MongoDB默认对_id字段建立索引 MongoDB创建集合时,默认会给集合创建id索引.用户如果不需要id索引,可以在创建结合时指定{autoIndexId: false}选项,这样创建出来的集合,就不会有任何索引了. mongo-9552:PRIMARY> db.createCollection("testcoll", {autoIndexId: false}); { "ok" : 1 } mongo-9552:PRIMARY> db.testco

mongodb集群搭建 副本集内部机制原理

副本集故障转移,主节点是如何选举的?能否手动干涉下架某一台主节点. 官方说副本集数量最好是奇数,为什么? mongodb副本集是如何同步的?如果同步不及时会出现什么情况?会不会出现不一致性? mongodb的故障转移会不会无故自动发生?什么条件会触发?频繁触发可能会带来系统负载加重? Bully算法 mongodb副本集故障转移功能得益于它的选举机制.选举机制采用了Bully算法,可以很方便从分布式节点中选出主节点.一个分布式集群架构中一般都有一个所谓的主节点,可以有很多用途,比如缓存机器节点元

MongoDB的主从复制及副本集的replSet配置教程_MongoDB

复制MongoDB的复制功能很重要,尤其是现在的存储引擎还不支持单击持久性.不仅可以用复制来应对故障切换,数据集成,还可以做读扩展,热备份或作为离线批处理的数据源. 1.主从复制主从复制是MongoDB最常用的复制方式.可用于备份,故障恢复和读扩展等. 基本就是搭建一个主节点和一个或多个从节点,每个从节点需要知道主节点的地址.运行mongod --master启动主服务器.运行mongod --slave --source master_address启动从服务器.[root@test02 ~]

从炉石传说数据库故障谈谈MongoDB的数据库备份和恢复手段

看到这个消息,我的第一反应是重新翻出尘封已久的ipad,装上炉石准备上线领补偿.等等,作为一个数据库行业从业人员,是不是还应该干点什么?恩,很有必要再重新审视一下我们的数据库有没有做好容灾,否则,今天你看别人热闹,明天可能就别人看你热闹了.借此机会我想给大家普及一下MongoDB数据库的备份和恢复手段(当然炉石传说应该不一定是使用MongoDB作为数据库),以帮助大家做好容灾,过个好年.同时,我也为我们阿里云MongoDB服务做下广告,我们的MongoDB服务拥有完善的自动备份/恢复功能,灵活的

MongoDB迁移的那些事:冷备份+增量备份恢复

作者介绍 胡国青,DBAplus社群群副,Oracle OCM10G.曾任职惠普.快乐购-芒果TV等公司服务,主要负责DBA和技术架构工作.热衷于Oracle.MySQL.MongoDB.Redis. Linux.Java.Python.shell等技术.目前服务于初创公司和没有DBA的部分公司,负责SQL优化.DB培训.DB架构设计等相关工作.   本文分享某客户实施方案,在今年9月中旬已经实施完毕.   一.环境构建步骤   1线上环境  都是副本集模式看,3个业务访问节点+1个隐藏节点+1

MongoDB的数据库如何备份和恢复?

MongoDB数据库如何备份?恢复MongoDB数据库应如何操作?最近数据库多灾多难,这些问题也成为开发者关注的重点.2016年12月爆出MongoDB数据库安全问题(见MongoDB黑客赎金事件解读及防范).2017年1月又被炉石传说数据库故障给刷屏了.作为一个数据库行业从业人员,看到这个新闻是不是还应该干点什么?恩,很有必要再重新审视一下我们的数据库有没有做好容灾,借此机会给大家普及一下MongoDB数据库的备份和恢复手段.   MongoDB数据库备份手段 全量逻辑备份/恢复 Mongod

MongoDB Secondary 延时高(同步锁)问题分析

背景介绍 MongoDB 复制集里 Secondary 不断从主上批量拉取 oplog,然后在本地重放,以保证数据与 Primary 一致.同步原理参考MongoDB复制集同步原理解析 Secondary 拉取到一批 oplog 后,在重放这批 oplog 时,会加一个特殊的 Lock::ParallelBatchWriterMode 的锁,这个锁会阻塞所有的读请求,直到这批 oplog 重放完成.这么做的原因有2个 尽量避免脏读,等一批 oplog 重放完后,这批数据才允许用户读到. 尽量保证