MySQL · 答疑释惑 · GTID下auto_position=0时数据不一致

问题重现

搭建一主一备,主备配置分别如下 ,同时设置备库的auto_position=0

$cat crash_recovery-slave.opt

gtid_mode=on 

enforce_gtid_consistency=on 

log_slave_updates=on

relay_log_purge=OFF

sync_relay_log_info=1000

sync_relay_log=1

sync_relay_log_info=100

$cat crash_recovery-master.opt

gtid_mode=on 

enforce_gtid_consistency=on 

log_slave_updates=on

用 sysbench 不断对主库进行压测,由于主库压力比较大,可以发现备库延迟不断增加,在有延迟的情况下,重启备库 OS 并启动备库 mysql server,关闭主库压力,待主备延迟为零的时候,做主备校验(这样的过程我们称之为一轮,在每一轮的结尾处做主备校验),这时可以发现会有一个表的 checksum 不一致,即产生了主备不一致的问题。

问题分析

  1. 分别在主备库比较 show global variables like '%gtid_executed%' 可以发现主备的 gtid_executed 的值是相等的;
  2. 将 checksum 不一致的表中的数据分别取出,然后vimdiff 一下,找到不一致表的具体数据的主建;
  3. 在主库的binlog中找到对这条数据最近一次操作的gtid;
  4. 解析备库的relaylog,并查找步骤 3) 中的gtid,可以发现,该gtid是一个relay log的结尾,且文件结尾处没有rotate log event.
  5. 继续解析relaylog文件,可以发现在format event之后是一个table_map_event, update_rows, xid_log_event, gtid_log_event, 只是gtid_log_event 的 id 小于3)中出现问题的gtid;
  6. 从 5)解析的relay log 来看,备库crash后,并不是接着crash之前的 binlog 来进行拉的,而是 crash 之前的一个位点,假设我们在crash之前拉取了 gtid 为30的binlog event,并sync 了relay log,此时,master_log_info记录的是之前的主库事务位点,假设为事务 10 的一个位点,那么当 OS 重启后,由于备库 auto_position=0, 会从master_log_info中的位点10来拉取binlog,从而形成了这样的binlog序列:

gtid_log_event(30), table_map_event(10), update_rows_log_event(10), xid_log_event(10), gtid_log_event(11)…..

这样的后果是将事务10的数据再次执行并误认为是事务30的数据,而直正拉取到事务30的binlog event时不执行,从而造成主备不一致的问题。

解决方案

  1. 打开gtid时,必须指定auto_position= 1;
  2. 备库在记录master_log_info时,以事务为单位记录位点信息,而不是以event为单位记录位点信息,这个需要在handle_slave_io中修改源码。

参数说明

sync_relay_log_info:Synchronously flush relay log info to disk after every #th transaction,每隔多少个事务 sync 一次 relay log 信息;

sync_master_info: Synchronously flush master info to disk after every #th event,每隔多少个log_event sync 一次 master log 信息;

sync_relay_log: Synchronously flush relay log to disk after every #th event,每隔多少个 log_event sync 一次 relay log 信息;

mysql 在读取binlog event时,会首先将位点信息写入操作系统的文件,但是没有 sync 操作,所以当OS crash时,会造成之前写但没有 sync 的位点信息丢失。

时间: 2025-01-21 15:00:16

MySQL · 答疑释惑 · GTID下auto_position=0时数据不一致的相关文章

MySQL · 答疑解惑 · GTID不一致分析

背景 server A,B 为双主结构,对于 server A 当gtid_next设置为AUTOMATIC时,A上执行的事务在binlog刷盘时递增获取事务的gtid,从而保证了在binlog中属于A的gtid是连续递增的. A的binlog在B应用时,B会通过 Executed_Gtid_Set 来记录A的binlog在B的执行情况.而A的binlog中gtid是连续的,从而 B未开启并行复制,B依次应用binlog,Executed_Gtid_Set中B的gtid集合应该是连续的,如A:1

MySQL · 答疑释惑· lower_case_table_names 使用问题

背景 在MySQL中,表是和操作系统中的文件对应的,而文件名在有的操作系统下是区分大小写的(比如linux),有的是不区分大小写(比如Windows),表名与文件名的大小写对应关系,MySQL 是通过 lower_case_table_names 这个变量来控制的. 这个变量的有效取值是0,1,2,按照官方文档 的解释: 0表示,表在文件系统存储的时候,对应的文件名是按建表时指定的大小写存的,MySQL 内部对表名的比较也是区分大小写的: 1表示,表在文件系统存储的时候,对应的文件名都小写的,M

MySQL · 答疑释惑 · UPDATE交换列单表和多表的区别

背景描述 之前我们遇到一个咨询,客户说: 1. 同一个表,col1=a,col2=b,做 update,set col1=col2,col2=col1,这时候两个都是b 2. 不同表,A表 col1=a,B表 col2=b,做 update,就能进行交换 为什么不同表就能交换呢? 问题实验 一张表的测试 root@localhost : test 12:36:09> select * from upt; +------+------+ | c1 | c2 | +------+------+ |

MySQL内核月报 2014.12-MySQL· 答疑释惑·server_id为0的Rotate

背景 在MySQL的M-S结构里面,event是binlog日志的基本单位.每个event来源于主库,每个Event都包含了serverid,用于表示该event是哪个实例生成的. 在5.6里面,细心的同学会发现,备库的relaylog中出现了server_id为0的event,其类型为Rotate Event. 这里说说server_id=0的Rotate Event. 心跳event MySQL Cluster中从NDB 6.3开始就出现的HEADBEAT event(hb event),

MySQL · 捉虫动态 · GTID下slave_net_timeout值太小问题

背景 官方 5.6 最新版本 5.6.24 有这样一个bugfix,当使用 GTID 协议进行复制,并且备库的 slave_net_timeout 值设置太小的话,备库的 slave io 线程会卡住,同时主库上的 binlog dump 线程数一直在涨,官方的bug地址 . bug分析 首先说明下几个概念: 1. slave_net_timeout,这个变量控制备库 IO 线程的连接超时,如果IO线程在指定时间内没有从主库收到数据的话,就断开重连,默认值是3600秒: 2. heartbeat

Asp.net 4.0,首次请求目录下的文件时响应很慢

原文:Asp.net 4.0,首次请求目录下的文件时响应很慢 1. 问题起因2. 尝试过的处理思路3. 解决方法   1. 问题起因     一个从VS2003(.Net Framework 1.1)升级到.net framework 4.0的项目,每次编译或者部署到服务器上后,首次请求任何一个目录下的默认页面时,都要耗时3~5秒:而以前使用.net framework 1.1的时候,没有这个问题. 我在页面上开启Trace="true"来跟踪,发现页面的处理时间并不久(IIS重启,首

MySQL · 答疑解惑 · 备库Seconds_Behind_Master计算

背景 在mysql主备环境下,主备同步过程如下,主库更新产生binlog, 备库io线程拉取主库binlog生成relay log.备库sql线程执行relay log从而保持和主库同步. 理论上主库有更新时,备库都存在延迟,且延迟时间为备库执行时间+网络传输时间即t4-t2. 那么mysql是怎么来计算备库延迟的? 先来看show slave status中的一些信息,io线程拉取主库binlog的位置: Master_Log_File: mysql-bin.000001 Read_Maste

[MySQL 5.6] GTID内部实现、运维变化及存在的bug

由于之前没太多深入关注gtid,这里给自己补补课,本文是我看文档和代码的整理记录. 本文的主要目的是记下跟gtid相关的backtrace,用于以后的问题排查.另外也会讨论目前在MySQL5.6.11版本中存在的bug. 本文讨论的内容包括 一.主库上的gtid产生及记录 二.备库如何使用GTID复制 三.主备运维的变化 四.MySQL5.6.11存在的bug 前言:什么是GTID 什么是GTID呢, 简而言之,就是全局事务ID(global transaction identifier ),最

MySQL 5.6 GTID新特性实践_Mysql

GTID简介 什么是GTID GTID(Global Transaction ID)是对于一个已提交事务的编号,并且是一个全局唯一的编号. GTID实际上是由UUID+TID组成的.其中UUID是一个MySQL实例的唯一标识.TID代表了该实例上已经提交的事务数量,并且随着事务提交单调递增.下面是一个GTID的具体形式 3E11FA47-71CA-11E1-9E33-C80AA9429562:23 更详细的介绍可以参见:官方文档 GTID的作用 那么GTID功能的目的是什么呢?具体归纳主要有以下