数据库内核月报 - 2015 / 09-MySQL · 捉虫动态 · BUG 几例

随着RDS MySQL用户越来越多,隐藏很久很深的bug也逐渐被挖出来了,下面分享一下最近遇到的三例bug,都是官方版本存在的。

trigger/function中drop temporary table导致slave中断

只有5.6受到影响。

复现步骤

打开gtid_mode=ON

create function `test_func_1` () returns varchar(30) charset utf8
begin
    drop temporary table if exists test_func_1;
    drop temporary table if exists test_func_2;
    return "hello";
end;

select test_func_1();

原因分析

function/trigger和procedure不同,不能单独执行,必须依赖statement才能存在,这样就决定了 function/trigger 的事务边界必须由statement来定义,所以create function/trigger的时候,会进行检测body中是否有事务边界定义。比如,如果有commit/rollback,或者会引起隐式提交的DDL语句,那么就会报以下错误:

1422 - Explicit or implicit commit is not allowed in stored function or trigger.

MySQL 5.5为什么会成功?
因为drop temporary table是一个比较特殊的语句,虽然是DDL语句,但不会隐式提交,所以进行了特殊处理,可以使用。

MySQL 5.6 为什么主库会成功,备库会失败呢?
在打开gtid_mode的情况下,gtid有一个特殊的限制,不能在事务的过程中进行drop temporary table。如果要使用,必须为drop temporary table独立分配一个GTID。

复现方法中的function在主库执行的时候,产生的binlog event如下:

| master-bin.000001 |  580 | Gtid           |         1 |         628 | SET @@SESSION.GTID_NEXT= 'cfef3544-1327-11e5-8a6f-2c44fd7a5210:2'                                                                                                                                                                                                                                               |
| master-bin.000001 |  628 | Query          |         1 |         779 | DROP TEMPORARY TABLE IF EXISTS `test`.`test_func_1` /* generated by server */                                                                                                                                                                                                                                   |
| master-bin.000001 |  779 | Query          |         1 |         930 | DROP TEMPORARY TABLE IF EXISTS `test`.`test_func_2` /* generated by server */                                                                                                                                                                                                                                   |

而这样的event在备库slave线程执行的时候,不满足gtid对于drop temproary table的要求,所以报错。

修复方法
既然gtid_mode=on的时候,drop temproary table必须要分配一个gtid,那么也就意味着它虽然不会隐式提交,但还是定义了事务边界。修复方法就是就在gtid_pre_statement_checks的时候,对于这样的情况就拒绝执行。

drop带有中文表名的语句在备库执行失败

5.1、5.5、5.6都受影响。

复现步骤

use test;
set names gbk;
create table test.`t_测试_table`(id int);
drop table test.`t_测试_table`;

原因分析
首先环境设置:

set names gbk;
create table test.`t_测试_table`(id int);

牵涉到的字符集如下:

session环境:     gbk
query串:          gbk
表名和文件名:     system_charset
query_event:     gdk

drop table test.`t_测试_table`:
session环境:     gbk
query串:     gbk
表名和文件名:     system_charset
query_event:     system_charset

因为drop table的query event是/* generated by server */,在主库生成的时候使用的字符集为system_charset,而在备库执行的时候,需要初始化session环境为主库带过来是gbk,而event本身是system_charset的,导致event和session环境的charset不一致,无法找到表而slave中断。

修复方法
对于/* generated by server */的event,不沿用session的字符集,而是使用主库产生event时用的字符集。

带有auto_increment字段的表转成archive引擎报错

5.1、5.5、5.6都受影响。

复现步骤

create table test.t(id int primary key auto_increment, col1 int) engine=innodb;
insert into test.t values(1, 2);
insert into test.t values(2, 2);
commit;

alter table test.t engine= archive;

ERROR 1022 (23000): Can't write; duplicate key in table '#sql-db11_2bfaa

原因分析
archive是一个归档引擎,在写入的时候,必须按照递增顺序,也就是不能写入一个比当前pk小的记录,引擎层做了硬编码限制:

/*
We don't support decremening auto_increment. They make the performance
just cry.
*/
if (temp_auto <= share->archive_write.auto_increment &&
    mkey->flags & HA_NOSAME)
{
  rc= HA_ERR_FOUND_DUPP_KEY;
  goto error;
}

而alter的过程中,因为没有指定auto_increment的值,所以auto_increment会从原表中继承过来,也就是等于2,而在copy数据的时候,先插入pk=1的记录,发现比当前auto_increment值小,就报了上面的错误。

修复方法

语句alter table t engine=archive,在转换成archive引擎的时候,如果没有指定auto_increment的值的时候,系统默认指定成0, 而不是沿用原表的当前auto_increment值。

时间: 2024-09-20 16:38:42

数据库内核月报 - 2015 / 09-MySQL · 捉虫动态 · BUG 几例的相关文章

MySQL内核月报 2014.09-MySQL· 捉虫动态·GTID 和 DELAYED

描述 这是一个MySQL 5.6才有的bug,影响包含最新版本.涉及到的概念有GTID.DELAYED. 现象 在5.6主备都开启GTID-MODE的时候,备库同步线程停止,且Last_SQL_Error显示"When @@SESSION.GTID_NEXT is set to a GTID, you must explicitly set it to a different value after a COMMIT or ROLLBACK. Please check GTID_NEXT var

MySQL内核月报 2014.10-MySQL· 捉虫动态·binlog重放失败

背景 在 MySQL 日常维护中,要回滚或者恢复数据,我们经常会用 binlog 来在数据库上重放,执行类似下面的语句: mysqlbinlog mysql-bin.000001 | mysql -hxxxx -Pxx -u 最近遇到了这样一个问题,在重放 binlog 时,mysqld 报这样的错 ERROR 1064 (42000) at line 25: You have an error in your SQL syntax; check the manual that correspo

MySQL内核月报 2014.11-MySQL· 捉虫动态·SIGHUP 导致 binlog 写错

bug描述 这是5.6中和gtid相关的一个bug,当 mysqld 收到 sighup 信号 (比如 kill -1) 的时候,会 flush binlog,但是新生成binlog开头没写 Previous_gtids_log_event,这会导致下面 2 个问题: 这个时候 mysqld 重启的话,会发现再也起不来了,error log 里有这样的错 The binary log file 'mysql/mysql-bin.000020' is logically corrupted: Th

MySQL内核月报 2014.09-MySQL· 捉虫动态·auto_increment

背景: Innodb引擎使用B_tree结构保存表数据,这样就需要一个唯一键表示每一行记录(比如二级索引记录引用). Innodb表定义中处理主键的逻辑是: 1.如果表定义了主键,就使用主键唯一定位一条记录 2.如果没有定义主键,Innodb就生成一个全局唯一的rowid来定位一条记录 auto_increment的由来: 1.Innodb强烈推荐在设计表中自定义一个主键,因为rowid是全局唯一的,所以如果有很多表没有定义主键,就会在生成rowid上产生争用. row_id由mutex保护,并

MySQL内核月报 2014.08-MySQL· 捉虫动态·Count(Distinct) ERROR

背景 MySQL现行版本中存在一个count(distinct)语句返回结果错误的bug,表现为,实际结果存在值,但是用count(distinct)统计后返回的是0. 原因分析 Count(distinct f)的语义就是计算字段f的去重总数,计算流程大致如下: 流程一: 1. 构造一个unique集合A1(用tree实现) 2. 对每个值都试图插入集合A1中 3. 若和A1中现有item重复则直接跳过,不重复则插入并+1 4. 完成后计算集合中元素个数. 细心的同学会看到上面的语句中有一个s

MySQL内核月报 2014.10-MySQL· 捉虫动态·从库OOM

bug背景 官方最近发布的版本(5.7.5)修复了这样一个bug,主备复制场景下,如果主库和备库对应的表结构中有数据类型不一致,并且主库的 binlog 是 row 格式的,这时候如果主库对不一致的表做了一个大事务更新,备库在应用 relay-log 的时候报OOM(Out of Memory).bug地址在这里,主备数据类型不一致主要发生在这2种情况下: 主备库版本不一致,不同版本之间的数据类型可能存在不一致.用户在报这个bug时,就是在5.5到5.6的复制场景下,用到了时间类型,时间类型在5

MySQL内核月报 2014.12-MySQL· 捉虫动态·Opened tables block read only

背景 MySQL通过read_only参数来设置DB只读,这样MySQL实例就可以作为slave角色,只应用binlog,不接受用户修改数据.这样就可以保护master-slave结构中的数据一致性,防止双写风险. global read_only的实现方式 MySQL5.5版本通过三个步骤来设置read_only: 步骤1:获取global read lock,阻塞所有的写入请求 步骤2:flush opened table cache,阻塞所有的显示读写锁 步骤3:获取commit lock

MySQL内核月报 2014.09-MySQL· 捉虫动态·GTID 和 binlog_checksum

现象描述 在5.6主备环境下,主备都开启GTID-MODE,备库开启crc校验,主库不开.重启备库sql线程后,备库sql线程停止Last_Error显示:Relay log read failure: Could not parse relay log event entry. The possible reasons are: the master's binary log is corrupted(you can check this by running 'mysqlbinlog' on

MySQL内核月报 2014.10-MySQL· 捉虫动态·崩溃恢复失败

现象 5.6版本,在创建InnoDB表过程中,若发生crash,会导致服务无法启动. 背景 每个InnoDB表A创建成功后有两个文件A.frm和A.ibd.建表流程如下: 1.创建A.frm 2.创建A.ibd 3.初始化A.ibd 4.将表A加入InnoDB字典 若crash发生在步骤2之后,则只保留一个完整的A.frm和一个空文件A.idb. 崩溃恢复 在上述的crash发生后,下一次启动则需要做崩溃恢复.崩溃恢复的一个逻辑是需要遍历数据目录下的所有.ibd文件,验证文件与字典的一致性. 对