云计算关键技术系列之二——GFS

　　由于搜索引擎需要处理海量的数据，所以Google的两位创始人Larry Page和Sergey Brin在创业初期设计一套名为“BigFiles”的文件系统，而GFS(全称为“Google File System”)这套分布式文件系统则是“BigFiles”的延续。

　　技术概览

　　首先，介绍它的架构，GFS主要分为两类节点：其一是Master节点，其主要存储与数据文件相关的元数据，而不是Chunk(数据块)。元数据包括一个能将64位标签映射到数据块的位置及其组成文件的表格，数据块副本位置和哪个进程正在读写特定的数据块等。还有Master节点会周期性地接收从每个Chunk节点来的更新(“Heart-beat”)来让元数据保持最新状态;其二是Chunk节点，它主要用于存储数据。在每个Chunk节点上，数据文件会以每个默认大小为64MB Chunk的方式存储，而且每个Chunk有唯一一个64位标签，并且每个Chunk都会在整个分布式系统被复制多次，默认次数为3。下图就是GFS的架构图：

　　GFS的架构图

　　接着，在设计上，GFS主要有八个特点：

　　1.大文件和大数据块：数据文件的大小普遍在GB级别，而且其每个数据块默认大小为64MB，这样做的好处是减少了元数据的大小，从而能使Master节点能够非常方便地将元数据都放置在内存中以提升访问效率。

　　2.操作以添加为主：文件很少会被删减或者覆盖，通常只是进行添加或者读取操作，这样能充分考虑到硬盘线性吞吐量大，但随机读写慢的特点。

　　3.支持容错：首先，虽然当时为了设计方便，采用了单Master的方案，但是整个系统会保证Master节点会有其相对应的替身(Shadow)，以便于当Master节点出现问题时进行切换。其次，在Chunk层，GFS已经在设计上将节点失败视为常态，所以能非常好地处理Chunk节点失效的问题。

　　4.高吞吐量：虽然以单个节点来看，GFS的性能无论是从吞吐量还是延迟都很普通，但因为其支持上千的节点，所以总的数据吞吐量是非常惊人的。

　　5.保护数据：文件被分割成固定尺寸的数据块以便于保存，而且每个数据块都会被系统至少复制三份。

　　6.扩展能力强：因为元数据偏小，使得一个Master节点能控制和管理上千个存数据的Chunk节点。

　　7.支持压缩：对于那些稍旧的文件，可以通过对它进行压缩，来节省硬盘空间，并且压缩率非常惊人，有时甚至接近90%。

　　8.基于用户空间：GFS主要运行于系统的用户空间(User Time)，虽然在效率方面，用户空间比内核空间略低，但是更便于开发和测试，还有，就是能更好利用Linux的自带的一些POSIX API。

　　优劣点

　　由于GFS主要是为了存储海量搜索数据而设计的，所以它在吞吐量(Throughput)和伸缩性(Scalability)这两方面表现非常优异，可谓业界的“翘楚”，但是由于其主要以64MB数据块形式存储，所以在随机访问方面速度并不优秀，虽然这点可谓是它的“软肋”，但是这本身也是其当初为了吞吐量和伸缩性所做的权衡。

云计算关键技术系列之二——GFS

云计算关键技术系列之二——GFS的相关文章

南方电网云计算关键技术项目通过阶段性验收

云计算关键技术

数据库防火墙关键特性系列之二丨高性能和可扩缩性

云关键技术及基于Hadoop的云计算模型研究

云计算中的关键技术是什么？

中国云计算关键在落地

云计算发展进程中的六大关键技术

云计算中心网络大容量交换机关键技术与系统”课题通过验收

解析：云计算发展进程中的六大关键技术