大部分的Linux文件系统(如ext2、ext3)规定,一个文件由目录项、inode和数据块组成:
- 目录项:包括文件名和inode节点号。
- Inode:又称文件索引节点,包含文件的基础信息以及数据块的指针。
- 数据块:包含文件的具体内容。
先说inode
理解inode,要从文件储存说起。文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector),每个扇区储存512字节(相当于0.5KB)。
操作系统读取硬盘的时候,不会一个扇区一个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个"块"(block)。这种由多个扇区组成的"块",是文件存取的最小单位。"块"的大小,最常见的是4KB,即连续八个 sector组成一个 block。
文件数据都储存在"块"中,那么很显然,我们还必须找到一个地方储存文件的元信息,比如文件的创建者、文件的创建日期、文件的大小等等。这种储存文件元信息的区域就叫做inode,中文译名为"索引节点"。
inode包含文件的元信息,具体来说有以下内容:
- 文件的字节数。
- 文件拥有者的User ID。
- 文件的Group ID。
- 文件的读、写、执行权限。
- 文件的时间戳,共有三个:ctime指inode上一次变动的时间,mtime指文件内容上一次变动的时间,atime指文件上一次打开的时间。
- 链接数,即有多少文件名指向这个inode。
- 文件数据block的位置。
可以用stat命令,查看某个文件的inode信息:
stat demo.txt
总之,除了文件名以外的所有文件信息,都存在inode之中。至于为什么没有文件名,下文会有详细解释。
当查看某个文件时,会先从inode表中查出文件属性及数据存放点,再从数据块中读取数据。
请看文件存储结构示意图:
inode的大小
inode也会消耗硬盘空间,所以硬盘格式化的时候,操作系统自动将硬盘分成两个区域。一个是数据区,存放文件数据;另一个是inode区(inode table),存放inode所包含的信息。
每个inode节点的大小,一般是128字节或256字节。inode节点的总数,在格式化时就给定,一般是每1KB或每2KB就设置一个inode。假定在一块1GB的硬盘中,每个inode节点的大小为128字节,每1KB就设置一个inode,那么inode table的大小就会达到128MB,占整块硬盘的12.8%。
查看每个硬盘分区的inode总数和已经使用的数量,可以使用df -i 命令。
查看每个inode节点的大小,可以用如下命令:
sudo dumpe2fs -h /dev/hda | grep "Inode size"
由于每个文件都必须有一个inode,因此有可能发生inode已经用光,但是硬盘还未存满的情况。这时,就无法在硬盘上创建新文件。
inode号码
每个inode都有一个号码,操作系统用inode号码来识别不同的文件。
这里值得重复一遍,Linux系统内部不使用文件名,而使用inode号码来识别文件。对于系统来说,文件名只是inode号码便于识别的别称或者绰号。表面上,用户通过文件名,打开文件。实际上,系统内部这个过程分成三步:首先,系统找到这个文件名对应的inode号码;其次,通过inode号码,获取inode信息;最后,根据inode信息,找到文件数据所在的block,读出数据。
使用ls -i命令,可以看到文件名对应的inode号码,例如:
ls -i demo.txt
目录项
Linux系统中,目录(directory)也是一种文件。打开目录,实际上就是打开目录文件。
目录文件的结构非常简单,就是一系列目录项(dirent)的列表。每个目录项,由两部分组成:所包含文件的文件名,以及该文件名对应的inode号码。
ls命令只列出目录文件中的所有文件名:
ls /etc
ls -i命令列出整个目录文件,即文件名和inode号码:
ls -i /etc
如果要查看文件的详细信息,就必须根据inode号码,访问inode节点,读取信息。ls -l命令列出文件的详细信息。
ls -l /etc
硬链接和软链接
硬链接
一般情况下,文件名和inode号码是"一一对应"关系,每个inode号码对应一个文件名。但是,Linux系统允许,多个文件名指向同一个inode号码。这意味着,可以用不同的文件名访问同样的内容;对文件内容进行修改,会影响到所有文件名;但是,删除一个文件名,不影响另一个文件名的访问。这种情况就被称为"硬链接"(hard link)。
ln命令可以创建硬链接,语法为:
ln source_file target_file
运行上面这条命令以后,源文件与目标文件的inode号码相同,都指向同一个inode。inode信息中有一项叫做"链接数",记录指向该inode的文件名总数,这时就会增加1。反过来,删除一个文件名,就会使得inode节点中的"链接数"减1。当这个值减到0,表明没有文件名指向这个inode,系统就会回收这个inode号码,以及其所对应block区域。
这里顺便说一下目录文件的"链接数"。创建目录时,默认会生成两个目录项:"."和".."。前者的inode号码就是当前目录的inode号码,等同于当前目录的"硬链接";后者的inode号码就是当前目录的父目录的inode号码,等同于父目录的"硬链接"。所以,任何一个目录的"硬链接"总数,总是等于2加上它的子目录总数(含隐藏目录),这里的2是父目录对其的“硬链接”和当前目录下的".硬链接“。
软链接
除了硬链接以外,还有一种特殊情况。文件A和文件B的inode号码虽然不一样,但是文件A的内容是文件B的路径。读取文件A时,系统会自动将访问者导向文件B。因此,无论打开哪一个文件,最终读取的都是文件B。这时,文件A就称为文件B的"软链接"(soft link)或者"符号链接(symbolic link)。
这意味着,文件A依赖于文件B而存在,如果删除了文件B,打开文件A就会报错:"No such file or directory"。这是软链接与硬链接最大的不同:文件A指向文件B的文件名,而不是文件B的inode号码,文件B的inode"链接数"不会因此发生变化。
ln -s命令可以创建软链接,语法为:
ln source_file target_file
在inode里存放了文件数据所在磁盘数据块号,文件越大,所需要的块号就越多,这是因为文件在磁盘上的存放是不连续的。那为什么不用连续存放?这样只需要一个起始块号以及文件大小就可以描述整个文件的数据位置了。这回带来一些问题,包括很难增长文件大小,以及很容易产生磁盘碎片。
因此,还是采用存储每个块号的方式来存放文件数据在磁盘上的索引。当然,要想允许大文件且保持inode足够小,可以采用分级机制。在inode中有13个整数用来存放块号。前10个数是直接指向文件数据的块号,第11个数单级间接指向文件数据,即在第11个块号所指向的的数据块存放的是一个块号表。第12个数双级间接指向文件数据,即第12个块号指向一个单级间接块号表。第13个块号指向的是一个指向双级间接块号表。如下图所示:
--------
|direct|----->data block
--------
----------
|single |--->----------
|indirect| |direct 0|--->data block
---------- |direct 1|--->data block
|... | ...
|direct n|--->data block
----------
----------
|double |--->-----------------
|indirect| |single direct 0|--->...
---------- |single direct 1|--->...
|... | ...
|single direct n|--->...
-----------------
……
这种方式能够存放多少数据呢?计算一下。假设一个磁盘块能存放1K字节,一个块号占用4个字节,那么:
10 direct blocks: 10 * 1K = 10K
1 indirect block with 256 direct blocks: 256 * 1K = 256K
1 double indirect block with 256 indirect blocks: 256 * 256K = 64M
1 triple indirect block with 256 double indirect blocks: 256 * 64M = 16G。
然而一个4字节整数能寻址的最大空间为4G,因此inode的这种块号组织方式足够用了,除非使用的是64位系统。
进程通过字节偏移量来访问文件中的数据,那么就需要将偏移量转换成磁盘块号。这里需要考虑分级层次,因此在实现起来会有一定的麻烦。内核提供bmap()函数来将偏移量转换成磁盘块号。处理如下:
struct Location
{
BlockNo blkNo;
ByteOffset off;
Bytes nIO;
BlockNo readAheadNo;
};
Location * bmap(INode * anINode, ByteOffset off)
{
根据偏移量计算逻辑块号;
计算块中的起始字节;
计算要拷贝给用户的字节数;
检查是否要预读,标记inode;
确定间接索引的等级;
while (不是在一个需要的等级)
{
根据逻辑块号来计算inode或间接块的索引;
获取磁盘块号;
brelse(未释放的磁盘块);
若没有更多的间接索引等级则返回块号;
读取间接索引磁盘块;
根据间接索引的等级调整逻辑块号;
}
}
这个算法在实现起来比较复杂,在Linux的实现当中比较分散,此处就不列举代码。
将路径名映射到inode
目录与普通文件类似,只不过目录中数据存放的是目录项,该项包含的是inode号以及在该目录中的一个文件名(可以是目录)。路径名是一个以“/”分割的字符串。每个被“/”分开的部分称为一个组件。在UNIX system V中,组件最长为14个字节。
那么,如何将路径名映射到inode呢?每个进程都有一个u area,存放一个指向当前目录的指针。另外有一个全局变量存放根目录的inode。有了两个inode,映射就很简单了。
若一个进程要打开“/etc/passwd”文件,内核解析该路径名时,发现“/”,这样就将根目录作为工作目录,然后从该目录中(inode所包好的数据块中)查找etc,找到了匹配后得到了etc的inode号,然后读取etc的内容,在其中查找passwd,找到之后就可以返回对应的inode。处理过程如下:
INode * namei(String pathName) // 返回的是锁住的inode
{
INode * cwINode = NULL;
if (pathName[0] == '/')
cwINode = iget(rootINodeNO);
else
cwINode = iget(currentDirINode);
while (pathName中还有组件)
{
从pathName中读取下一个组件component;
ISDIR(component) && 进程对该inode有对应的权限(否则返回权限错误);
if (*cwINode is root INode && component == "..")
continue;
while (cwINode的数据还没有结束)
{
bmap()得到数据块号; bread()读取数据块;
if (在cwINode的数据中找到component)
{
从该项中读取inode号matchINodeNo;
iput(cwINode);
cwINode = iget(matchINodeNo);
brelse()释放数据块;
break;
}
else
{
brelse()释放数据块;
return (no inode);
}
}
}
return (cwINode);
}
在Linux 0.99.15的实现中,namei采用了递归的方式,有兴趣的可以参考其代码。
参考:
The Design of The UNIX Operation System, by Maurice J. Bach
Linux Kernel Source Code v0.99.15, by Linus Torvalds
Linux Kernel Source Code v2.6.22, by Linus Torvalds and Linux community.
Understanding The Linux Kernel, 3rd edition, by Daniel P. Bovet, Marco Cesati
Copyleft (C) 2007 raof01. 本文可以用于除商业用途外的所有用途。若要用于商业用途,请与作者联系。