在之前分享过第一篇 关于操作系统存储管理和oracle数据库 http://blog.itpub.net/23718752/viewspace-1359146/
感觉对自己来说是迈出了艰难的一步,操作系统的概念有时候确实感觉枯燥,但是细细品来,都是前车之鉴,很多的方法或者改进都是在碰到很多问题之后总结琢磨出来的,所以从某种程度上来说,操作系统的基础是很多学科的基石,oracle也在不断的改进,从它的发展中也能看到各种改进的痕迹,这一点和操作系统都是异曲同工的效果,这也是我尝试来从操作系统为主线联系数据的一个主要原因。
之前讨论过固定分区和可变分区管理的一些情况,它们的主要缺点就是主存使用的低效率和存储分配释放的低速。 固定分区是分区内部的碎片造成主存利用率低,而可变分区是分区外部的碎片,往往小到无法使用,从而主存利用率不高。对于这个问题,分页是一种很有效的方法。
分页技术主要是把主存分为许多同样大小的存储块,并以这种存储块作为存储分配单位。oracle数据库中物理存储单位有段,区,数据块,这个时候所说的数据块和操作系统数据块存在着一点的映射,一般都比操作系统块要大。数据库中默认为8K.数据的存储都是以8K的基本单位来存储的。如果把这一点继续延伸,oracle中的区(extent)就和分页技术中所说的页很类似。
分页存储中的基本实现过程,有以下几点
1)把主存分为相同大小的存储块,叫做页架,页架从0开始,编号依次是0,1,2....
2)用户逻辑地址的分页,用户逻辑地址可以划分为和页架大小相同的部分,叫做页。页号从0开始,依次为0,1,2...
3)逻辑地址的表示,既然说到了逻辑地址,表示方法也很重要。每一个逻辑地址都是相对地址,用一个数对(p,d)来表示,p代表页号,d代表逻辑地址在也好为p的页中相对的地址,也叫偏移量。
听起来挺枯燥啊,可以简单举个例子,我们常看的书就是一个很好的例子,书有很多大小,四开,八开,十六开,可以理解为页架,书中的每一页就是我们所说的页,逻辑地址可以这么理解,一本书有很多章节,小结,比如第二章第3页,我们就能够很快找到,这个时候,页号就是2,偏移量就是3,用(p,d)来表示就是(2,3)
举一个严谨的例子,比如给定一个虚地址3456,假设页面大小为1000B,则第0页对应的地址为0-999,第1页为1000-1999,则虚地址3456=(3,456)
这一点和Oracle中创建表空间时指定的extent management管理方式很相似,比如我们创建一个表空间test指定分区大小为1M,表空间大小为100M,则语句如下:
create tablespace test add datafile '/u01/app/db/test01/data01/test01.dbf' size 100M extent management local uniform size 1M ;
这样我们指定分区大小为1M,如果存储了100M的数据,这样100M就会分为100个分区。如果数据大于分区1M,则可以存储在相应的分区上,不一定连续。
可以用下面的图表来说明。
地址 | 进程 | 页号 |
0-999 | 进程1 | 0 |
1000-1999 | 进程1 | 1 |
2000-2999 | 进程2 | 0 |
3000-3999 | 进程3 | 0 |
4000-4999 | 进程2 | 1 |
5000-5999 | 进程1 | 2 |
对应到每个进程对应的地址,就是我们所说的逻辑地址,比如进程1对应的逻辑地址就是
0-999
1000-1999
2000-3999
所以在分页思想中的难点就是对于地址的表示,我们已经说使用(p,d)来表示,但是这个数在机器指令的地址场中表示还有不同,首先会把地址分为两部分,一部分表示页号,一部分表示页内地址。
虽让说了用触发,但是每次访问一个主存单元都用一次除法得到页号和页内地址就很繁琐,实际上效率要更差。这个时候相比前人也是考虑了很多招数,最后还是使用二进制来搞定,指定页面尺寸是2的幂,这样就会省去很多额外的转换。
最后一个例子很关键,如果看懂了说明你对分页思想算是明白了。
假设页的大小为1KB,计算逻辑地地址为4101的页号,页内地址。
按照二进制的思想,4101可以这样表示 4101=2^12+2^1+2^1+2^0
用0,1来表示就是
0001000000000101
页的大小是1KB=2^10,则在二进制串中,后10位就是对应的页内地址,二进制0101代表的是5,表示页内地址为5
0001000000000101
页号对应的二进制串000100表示页号为4
所以4101对应的逻辑地址表示为(4,5)
这种方法可以省去除法运算,硬件层面会自动把逻辑地址拆分为两部分,对应页号和页内地址。
问题来了,地址能够表示了,那使用的时候是怎么转换的呢,首先会把逻辑地址抽取出来,像上面的例子,页号是4,然后根据页号为索引找到该页存放的主存页架号。比如存放的地址为2000-2999,则页架号为2,然后把页架号取代逻辑地址,和右边的页内地址组成了最终的物理地址去访问内存。
这种思想还是需要些时间去消化一下,优点也是很明显的,基本上没有页内碎片,同时也不会存在小到无法再用的页外碎片。因为每个碎片都是页架的整数倍。
分页中使用的二进制方式处理地址是一种很值得借鉴的方式,可以减少很多额外的开销,和oracle中的rowid存储方式也很类似。