innblock | InnoDB page观察利器

特别鸣谢

  • 笔者是知数堂早期学员,最初有写这么一个工具的想法也得到叶金荣老师的认可和鼓励,这个想法也整整耗掉了好几个晚上的休息时间,这里再次感谢叶金荣老师对工具审核,叶老师的经验和学识是每一位学员宝贵的财富。
  • 感谢《MySQL运维内参》主要作者周彦伟、王竹峰、强昌金对本工具的认可并授权引用部分内容,如果大家对本文的内容感到吃力可以自行参考该书,也可以和书中部分章节配合使用学习。
  • 感谢我所在的易极付公司DBA团队同事戴正勇、杨海波、田兴椿、邹启健,在我研究和编写代码的时候承担了大部分的数据库相关的工作,能在重庆遇到你们是我的荣幸,你们是最出色的。

工具获取

百度云盘地址:

http://pan.baidu.com/s/1qYnyVWo

一、前言

InnoDB中索引块的内部组织一直是大家比较感兴趣并且乐于研究的东西,我们从很多书籍和文章都不惜笔墨进行大量的描述比如<>中就能感受到作者用了大量篇幅描述什么是slot、什么是heap、记录的逻辑和物理顺序是怎么样的。运维内参>

但是我们却很难直观的看到,因为数据文件是二进制文件。虽然我们可以通过例如LINUX的hexdump等类似命令进行查看,但是大量的16进制信息很难直观的提取出各种有用的信息,相信不少人和笔者一样都是通过肉眼进行查看,但是这显然是一种吃力又不讨好的方法。

在Oracle中我们可以通过dump block的方法查看block的信息,那么InnoDB是否也可以这样呢?

本着这种让大家更加直观的观察到底层索引块的信息的宗旨,笔者直接借用源码中的各种宏定义,使用C++和STL list容器实现了这样一个工具innblock。由于工作原因不能全身心投入代码编写,代码有些混乱。所以如果有bug还请大家见谅以及提出,笔者会尽快进行更新,感谢。

约定

index page(索引页、索引块),InnoDB表是基于聚集索引的索引组织表,整个表其实不是聚集索引,就是普通索引。因此InnoDB表空间文件中,数据页其实也是索引页,所以下面我们统称为索引页,英文用page no表示;

二、innblock简介

本工具有2个功能。

第一个scan功能用于查找ibd文件中所有的索引页。

第二个analyze功能用于扫描数据块里的row data。

先看下 help 输出

  • scan功能

    [root@test test]# ./innblock  testblock.ibd scan 16
  • analyze功能
    [root@test test]# ./innblock  testblock.ibd 3 16

可以执行 innblock help 获得更详细的使用帮助信息。

三、innblock的限制

  1. 不支持REDUNDANT行格式的数据文件;
  2. 只支持LINUX x64平台;
  3. 本工具直接读取物理文件,部分dirty page可能延时刷盘而未能被读取到,可以让InnoDB及时刷盘再重新读取;
  4. 最好在MySQL 5.6/5.7版本下测试;
  5. 只能解析索引页,不支持inode page、undo log等类型的page;
  6. scan功能会包含delete后的索引块和drop了的索引块.
  7. 不能读取详细的row data;
  8. 建议采用独立表空间模式,更便于观察;
  9. 建议仅在测试环境下学习和研究使用。

四、innblock怎么用

首先,创建测试表,填充数据

mysql> create table testblock (
id1 int primary key,
name varchar(30),
id3 int,
key(name),
key(id3));

mysql> insert into testblock values(1,'gao',1),(2,'gao',2),
(3,'gao',3),(4,'gao',4);
mysql> delete from testblock where id1=1;

1. 测试scan功能,扫描所有index page

我们发现有3个索引,索引ID(INDEX_ID)分别是 248、249、250,查看数据字典确认

2. analyze功能展示

我们选取 pageno=3 那个索引页进行扫描,可见下面信息

五、输出信息详解

我在工具的help文档中也有详细的解释,这里单独对analyze功能解析数据块的输出详解一番,并且我也会给出这些值来自源码的哪个宏定义。这部分知识点在<>中也有详细说明。运维内参>

1、基本信息(Block base info)

  • [block_no]:page offset no inside space,begin is 0(取自 FIL_PAGE_OFFSET) 索引页码(index page no),该页相对于表空间的偏移量,从0开始计数。如果page no = 3,则实际上是第4个index page。
  • [space_id]:this contains the space id of the page(FIL_PAGE_SPACE_ID) 本索引页所属的表空间ID,可以在 INNODB_SYS_TABLES、INNODB_SYS_TABLESPACES、INNODB_SYS_DATAFILES 等系统视图中查看。
  • [index_id]:index id where the page belongs.This field should not be written to after page creation. (PAGE_INDEX_ID) 本索引页所属的索引ID,可以在 INNODB_SYS_INDEXES 系统视图中查看。
  • [slot_nums]:number of slots in page directory(PAGE_N_DIR_SLOTS) 本索引页中所包含的slot(槽)的数量。
  • [heaps_rows]:number of records in the heap include delete rows after purge and INFIMUM/SUPREMUM(取自PAGE_N_HEAP) 本索引页中的全部记录数量,这其中包含了已经deleted且已被purged的记录(这种记录会被放到索引页的garbage队列中),以及两个伪记录INFIMUM/SUPREMUM。
  • [n_rows]:number of records not include delete rows after pruge and INFIMUM/SUPREMUM(PAGE_N_RECS) 本索引页中的记录数,不含deleted且已被purged的记录,以及两个伪记录INFIMUM、SUPREMUM。
  • [heap_top]:pointer offset to record heap top (PAGE_HEAP_TOP) 指向本索引页已分配的最大物理存储空间的偏移量。
  • [del_bytes]:number of bytes in deleted records after purge(PAGE_GARBAGE) 本索引页中所有deleted了的且已被purged的记录的总大小。
  • [last_ins_offset]:pointer to the last inserted record, or NULL if this info has been reset by a delete(PAGE_LAST_INSERT) 指向本索引页最后插入记录的位置偏移量,如果最后操作是delete,则这个偏移量为空。通过判断索引页内数据最后插入的方向,用于索引分裂判断。
  • [page_dir]:last insert direction: PAGE_LEFT, ...(PAGE_DIRECTION) 本索引页中数据最后插入的方向,同样用于索引分裂判断。
  • [page_n_dir]:number of consecutive inserts to the same direction(PAGE_N_DIRECTION) 向同一个方向插入数据的行数,同样用于索引分裂中进行判断
  • [leaf_inode_space leaf_inode_pag_no leaf_inode_offset]:leaf segment postion and in inode block offset,only root block(PAGE_BTR_SEG_LEAF开始 10字节)
  • [no_leaf_inode_space no_leaf_inode_pag_no no_leaf_inode_offset]:no_leaf segment postion and in inode block offset,only root block(取自PAGE_BTR_SEG_TOP 开始 10字节) 这6个值只在root节点会有信息,分别表示了叶子段和非叶子段的inode的位置和在inode块中的偏移量,其他块都为0。
  • [last_modify_lsn]:lsn of the end of the newest modification log record to the page(FIL_PAGE_LSN) 本块最后一次修改的LSN。
  • [page_type]:for this tool only B+_TREE(FIL_PAGE_TYPE) 对于本工具而言始终为B+ TREE,因为不支持其它page type。
  • [level]:level of the node in an index tree; the leaf level is the level 0(PAGE_LEVEL) 本索引页所处的B+ TREE的层级。注意,叶子结点的PAGE LEVEL为0。

2、四个相关链表(Block list info)

  • Total used rows:5 used rows list(logic): not delete purge rows and not delete logic sequence list(next offset list). 这个链表是逻辑有序链表,也是我们平时所说的块内数据有序的展示。它的顺序当然按照主键或者ROWID进行排列,因为是通过物理偏移量链表实现的,实际上就是逻辑上有序。我在实现的时候实际上是取了INFIMUM的偏移量开始进行扫描直到最后,但是注意被deleted且已经被purged的记录不在其中。
  • Total used rows:5 used rows list(phy): not delete purge rows and not delete physics sequence list(sort by heap no). 这个链表是物理上的顺序,实际上就是heap no的顺序,我在实现的时候实际上就是将上面的逻辑链表按照heap no进行排序完成的,所以块内部是逻辑有序物理无序的,同样注意被deleted且已被purged的记录不在其中。
  • Total del rows:1 del rows list(logic): purge delete logic sequence list(next offset list). 这个链表是逻辑上的,也就是被deleted且被purged后的记录都存在于这个链表中,通过读取块的PAGE_FREE获取链表信息。
  • Total slot:2 slot list: slot physics sequence list. 这是slot(槽的)信息,通过扫描块尾部8字节以前信息进行分析得到,我们可以发现在slot中存储的是记录的偏移量。

在这里链表中包含一些信息,这里就用help中的解析给出了。

  • [record offset]:real offset in block of this record.
  • [heapno]:physics heapno of this record.
  • [n_owned]:if this record is slot record n_owned is how many this slot include,other is 0.
  • [delflag]:this record is delete will Y,if not purge in list 1,if purge in list 3.
  • [rectype]: [REC_STATUS_ORDINARY=0(B+ leaf record) [REC_STATUS_NODE_PTR=1(not B+ leaf record)] [REC_STATUS_INFIMUM=2] [REC_STATUS_SUPREMUM=3]
  • [slot offset]:where(offset) this slot point,this is a record offset.no purge delete record.
  • [n_owned]:how many this slot include recorods.no purge delete record.

六、几个测试案列

本节全部使用测试表如下:

mysql> create table testblock (
id1 int primary key,
name varchar(30),
id3 int,
key(name),
key(id3)
);

初始化测试数据:

mysql> insert into testblock values(1,'gao',1),(2,'gao',2),
(3,'gao',3),(4,'gao',4);

1、执行delete后还未commit的记录只打 delete 标记

发起事务,先执行delete,暂不commit

mysql> begin; delete from testblock where id1=1;

分析结果:

我们看到其中有一条记录是

(2) normal record offset:127 heapno:2 n_owned 0,delflag:Y minflag:0 rectype:0

其 delflag = Yoffset = 127,这条记录只是delete,但还没 commit,也还没被 purged,因此不会出现在 del rows list链表中。

同时注意到几个信息:

  • del_bytes:0
  • n_rows:4
  • heaps_rows:6

三个信息结合起来看,表示还没有真正被清除的数据。

2、执行delete后commit的记录,被purged后真正被清除,进入删除链表

接着上面的事务,继续执行commit

mysql> commit;
Query OK, 0 rows affected (0.00 sec)

分析结果:

我们看到,执行commit,这条偏移量为127的记录被purged后入了del rows list链表

(1) normal record offset:127 heapno:2 n_owned 0,delflag:Y minflag:0  rectype:0

delflag = Y,同时我们观察到

  • del_bytes:31 //上一次看到的值是 0
  • n_rows:3 //上一次看到的值是 4
  • heaps_rows:6 //和上一次的值一样,因为这里计算的是物理记录数

可见,commit且被purged的数据才是真正的删除(清除)。

3、先删除后insert更大新记录,旧的heap no不会重用

上面删除的记录的heapno为2,接着插入新记录

insert into testblock values(5,'gaopeng',1);

显然它的长度大于删除记录的长度。

分析结果:

我们看到有一条新记录

(5) normal record offset:251 heapno:6 n_owned 0,delflag:N minflag:0 rectype:0

这条记录的heapno = 6,而删除的旧记录 heapno=2,这表明它没有重用del rows list中的空间,因为删除记录的空间根本放不下这条新记录,所以只能重新分配。同时我们注意到 heap_top = 279 ,这里也发生了变化,体现了实际为这行数据分配了新的heapno。

4、delete后,再insert更小或者相同大小记录,heap no会重用

在上面的基础上,我们插入新记录

insert into testblock values(6,'gao',1);

分析结果:

我们这次新写入的数据长度和删除的数据长度一致,我们发现heapno重用了del rows list中的记录没有了,而在数据逻辑顺序中多了一条

(6) normal record offset:127 heapno:2 n_owned 0,delflag:N minflag:0 rectype:0

我们发现heapno=2的记录 delflag 不再是 Y了,同时 heap_top = 279 也没有变化,del_bytes:31 变成了 del_bytes:0,都充分说明了这块空间得到重用。

5、测试del list中的空间重用只会检测第一个条删除的记录

清空数据表后执行测试

mysql> insert into testblock values(1,'gao',1),(2,'gao',2),(3,'gao',3),(4,'gaopeng',4);
mysql> delete from testblock where id1=4;
mysql> delete from testblock where id1=3;
mysql> insert into testblock values(5,'gaopeng',5);

在这里,我们先删除 [id1=4] 记录,后删除 [id1=3] 记录。 由于del list是头插法,所以后删除的 [id1=3] 的记录会放在del list链表的最头部,也就是 [del list header] => [id1=3] => [id1=4]。虽然 [id=4] 的记录空间足以容下新记录 (5,'gaopeng’,5),但并没被重用。因为InnoDB只检测第一个 del list 中的第一个空位 [id1=3],显然这个记录空间不足以容下新记录 (5,’gaopeng',5),所以还是新开辟了heap。

分析结果:

我们看到 del list 中共有2条记录(没被重用),却新增加了 heapno = 6 的记录。

6、del_bytes(PAGE_GARBAGE)是否包含碎片空间

从重组函数 btr_page_reorganize_low 来看,PAGE_GARBAGE确实包含了碎片空间。

清空数据表后执行测试

mysql> insert into testblock values(1,'gao',1),(2,'gao',2),(3,'gao',3),(4,'gaopeng',4);
mysql> delete from testblock where id1=4;

分析结果:

注意这里 del_bytes:35 就是删除这条记录的空间的使用量。接下来执行SQL

mysql> insert into testblock values(5,'gao',5);

再次分析结果:

注意到 del_bytes:4,这个刚好就是 'gaopeng' 7字节减去 'gao' 3字节剩下的4字节,我们也看到了 [heapno=5] 这个记录被重用了(del list为空,heaono=5的记录 delflag 不为 Y)。

总之本工具可以按照你的想法进行各种测试和观察。

七、内存泄露检测

实际上本工具我并没有显示的分配内存,内存分配基本使用了STL LIST容器检测结果如下:

==11984== LEAK SUMMARY:
==11984==    definitely lost: 0 bytes in 0 blocks
==11984==    indirectly lost: 0 bytes in 0 blocks
==11984==      possibly lost: 0 bytes in 0 blocks
==11984==    still reachable: 568 bytes in 1 blocks
==11984==         suppressed: 0 bytes in 0 blocks
==11984== Reachable blocks (those to which a pointer was found) are not shown.
==11984== To see them, rerun with: --leak-check=full --show-reachable=yes

八、总结

本工具基本采集了InnoDB索引页全部固定信息,希望能够帮助大家更方便获得各种信息,效率显然高于肉眼看二进制文件,这是作者在分析InnoDB遇到的困境,也是写这个小工具的出发点。 最后再次感谢叶金荣对工具审核&建议以及《MySQL运维内参》三位作者周彦伟、王竹峰、强昌金对本工具的认可,这也是我个人最大的荣耀运维内参>

运维内参>

原文发布时间为:2017-10-01

本文作者:高鹏(重庆八怪)

运维内参>

本文来自合作伙伴“老叶茶馆”,了解相关信息可以关注“老叶茶馆”微信公众号

时间: 2024-12-23 14:34:15

innblock | InnoDB page观察利器的相关文章

innblock 工具| InnoDB page观察利器

innblock | InnoDB page观察利器 特别鸣谢 笔者是知数堂早期学员,最初有写这么一个工具的想法也得到叶金荣老师的认可和鼓励,这个想法也整整耗掉了好几个晚上的休息时间,这里再次感谢叶金荣老师对工具审核,叶老师的经验和学识是每一位学员宝贵的财富. 感谢<>主要作者周彦伟.王竹峰.强昌金对本工具的认可并授权引用部分内容,如果大家对本文的内容感到吃力可以自行参考该书,也可以和书中部分章节配合使用学习. 感谢我所在的易极付公司DBA团队同事戴正勇.杨海波.田兴椿.邹启健,在我研究和编写

MySQL内核月报 2014.08-MariaDB·分支特性·支持大于16K的InnoDB Page Size

背景 最近发布的MariaDB 10.1 Alpha版本,提交了一个改动,放宽了InnoDB Page<=16K的限制,将上限提高到64K. 从MDEV-6075需求文档中可以看出,目前只支持COMPACT的结构,DYNAMIC结构能否支持还在研究,COMPRESSED结构则确定无法支持. 业务应用 什么情况下需要64K这么大的页面呢? 我们知道一个Page,不是所有的page_size都可以用来存数据,还有一些管理信息要存,例如页头和页尾(InnoDB Page). 此外,InnoDB Buf

MySQL内核月报 2015.03-MySQL · 性能优化· 5.7.6 InnoDB page flush 优化

在上期的月报中,我们已经详细介绍了Oracle MySQL以及社区分支最新的对InnoDB page flush的优化.在最近release的5.7.6版本中又有了进一步的改进.主要包括以下几点修改 修改一.更精确的loop时间 Page cleaner每做srv_flushing_avg_loops次flush后,会去计算刷脏和Redo LSN增长的速度.由于每次Page cleaner的工作量是自适应的,一次flush操作的时间可能超过1秒. 在新版本中,统一采用当前时间和上次更新速率的时间

MySQL 5.7.6 WL#7868 Innodb page flush优化

在上期的我们的月报(2015/2)中,我们已经针对Oracle MySQL以及社区版本最新的对innodb page flush的优化做了详细的介绍. 在最近release的5.7.6版本中又有了进一步的改进.     修改一.更精确的loop计算时间     Page cleaner会每做srv_flushing_avg_loops次后,会去计算刷脏和redo lsn增长的速度.由于每次Page cleaner的工作量是自适应的,一次flush操作的时间可能超过1秒,因此做N次loop的总时间

数据库内核月报 - 2015 / 08-MySQL · 社区动态 · InnoDB Page Compression

背景:Punch hole和Sparse file Punch hole是一个需要操作系统和文件系统支持的特性,顾名思义就是在文件中打洞.这个特性的目的是为了减少数据文件的磁盘开销.比如一个大文件中有一部分数据我们是不需要的,就可以通过punch hole特性将其删除,相当于在文件中打了个洞,这个洞是不占用磁盘的. Punch hole特性通过fallocate调用来实现,在其第二个参数指定flag FALLOC_FL_PUNCH_HOLE时,第三个参数指定需要punch hole的偏移位置,第

innodb page重组空间压缩函数(btr_page_reorganize_low)注释

我的学习记录原创!禁止转载 当innodb一个page碎片页过多会触发重组,这个重组过程在内存中完成,函数主要如下: 点击(此处)折叠或打开 bool btr_page_reorganize_low {     buf_block_t*    block        = page_cur_get_block(cursor);//获取buf_block_t位置     page_t*        page        = buf_block_get_frame(block); //获取数据域

[MySQL 5.6] Innodb page cleaner线程刷新策略

这部分内容是从http://mysqllover.com/?p=512 剥离出来,原文中为了保持整洁,将这些内容删除.   有以下几个参数会影响到Page cleaner的行为:   innodb_lru_scan_depth innodb_adaptive_flushing_lwm innodb_max_dirty_pages_pct_lwm innodb_io_capacity_max innodb_flushing_avg_loops   在函数page_cleaner_flush_pag

InnoDB: Error: space id and page n:o stored in the page?

2016-06-08 04:38:11 7fa7ddd86700  InnoDB: Error: space id and page n:o stored in the page InnoDB: read in are 4294967295:4294967295, should be 22291:4096! InnoDB: Database page corruption on disk or a failed InnoDB: file read of page 4096. InnoDB: Yo

MySQL · 引擎特性 · InnoDB文件系统管理

综述 从上层的角度来看,InnoDB层的文件,除了redo日志外,基本上具有相当统一的结构,都是固定block大小,普遍使用的btree结构来管理数据.只是针对不同的block的应用场景会分配不同的页类型.通常默认情况下,每个block的大小为UNIV_PAGE_SIZE,在不做任何配置时值为16kb,你还可以选择在安装实例时指定一个块的block大小. 对于压缩表,可以在建表时指定block size,但在内存中表现的解压页依旧为统一的页大小. 从物理文件的分类来看,有日志文件,主系统表空间文