我从存储管理出发,介绍数据库中的各种存储管理方法。为了和Informix比较,先介绍Oracle的存储管理结构。由浅入深,先介绍数据库的页面管理结构,再介绍段管理结构和分区管理结构。
数据库中的数据都是存储在文件或者裸盘上,但一个文件或者裸盘都相当大,有的数据库所有的数据都保存在同一个文件中,有的保存在多个文件中。数据库为了管理方便,将一个大磁盘空间分割成了很多小块,并将这个块称为页面(page),一个页面的大小往往是操作系统块大小的整数倍。尽管Oracle的文档上写的是“2 KB. Data blocks are the smallest units of storage that Oracle Database can use or allocate.”,但如果在块是4kB的操作系统上,用2KB的页面就非常浪费,所以建议数据库的页面大小最好使用操作系统块大小整数倍。系统的块大小可以用下面命令查看:
$getconf PAGESIZE
Oracle数据库支持多种页面大小,最大支持32KB。Oracle数据库有一个初始化参数DB_BLOCK_SIZE用来指定默认的数据库页面大小,正常情况下页面大小是4KB或者8KB,但无论如何都应该设置成操作系统块大小的整数倍,文档说明如下:“If the size differs for data blocks and operating system blocks, then the data block size must be a multiple of the operating system block size.”,文档说在64位平台上,最大的页面大小可以到32KB,但32位上是否也能到32KB就不清楚了,目前64位这么普及的情况下,这个问题也就不重要了。
Oracle的页面结构如下图所示:
(图片来自Oracle官方文档:Database Administration)
Block header
页头部分主要包含了公共的页面头信息(其中有页面类型,磁盘上的位置,页面校验码等信息),还包含一部分事务信息(包括活动事务和历史事务信息)。
页面上的事务信息,主要用于保持事务更新页面过程中释放的空间,只有当这些事务提交以后,这些空间才会真正的还给页面,才会被其它事务使用。事务信息的管理过程是一个非常复杂的过程,如果以后有机会,单独做为一个主题进行介绍。
Table directory
我这里将此翻译为表目录,对于堆组织表来说,同一个页面上都保存相同表的数据,这里就只保存此表的元数据。对于聚集表来说,多个表的数据可以保存在同一个页面上,这里就保存这些表的元数据。
Row directory
这里称此为项目录,项目录上保存了每个项的地址,项目录的编号是ROWID的组成部分。在更新数据的时候,要保证项目录的编号一直不变。项目录从前往后增长,在需要的时候才会分配,当数据和项目录重叠的时候,表示页面空闲空间已经用完。需要对空间进行重新整理,才能释放出删除操作释放的空间。除了最后一个项目录,其它项目录只能重用,不能释放。
Row Data
行数据都是从末尾开始分配,依次往前,如果中间某些记录被删除,这些空间不能被立即重用。只能等到这个页面没有更多的Free Space以后,在整理页面的过程中,会顺便把删除项的空间移动到Free Space中。但中间如果碰到某个删除项对应的事务还没有提交,这个项对应空间不能被计算在Free Space中,否则就会导致问题,具体什么问题大家可以思考思考。
其它
在建表的时候需要指定,两个参数,这两个参数对于页面有非常大的影响,一个是PCTFREE,另一个是PCTUSED。
PCTFREE用来指定预留多少空间用于以后的更新,也就是当插入数据的时候,超过了PCTFREE指定的值,就会认为这个页面已满,只有更新操作才能使用这个参数预留的空间。
PCTUSED用来指定页面可以被重新插入的一个阈值,只有当空闲空间超过PCTUSED指定的值以后,这个页面才能继续插入新的数据。否则此页面上只能有更新和删除操作。