HDFS深入浅析

本文用到了查看hadoop源码,关于hadoop源码导入">Eclipse方式见第一期

一、HDFS的背景介绍

  随着数据量越来越大,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。

  学术一点的定义就是:分布式文件系统是一种允许文件通过网络在多台主机上分享的 文件的系统,可让多机器上的多用户分享文件和存储空间。分布式文件管理系统很多,hdfsHDFS 只是其中一种。适用于一次写入、多次查询的情况,不支持并发写情况,小文件不合适。因为小文件也占用一个块,小文件越多(1000个1k文件)块越 多,NameNode压力越大。

二、 HDFS的基本概念

   我们通过hadoop shell上传的文件是存放在DataNode的block中,通过linux shell是看不到文件的,只能看到block。可以一句话描述HDFS:把客户端的大文件存放在很多节点的数据块中。在这里,出现了三个关键词:文件、节点、数据块。HDFS就是围绕着这三个关键词设计的,我们在学习的时候也要紧抓住这三个关键词来学习。

三、 HDFS的基本结构之NameNode1. 作用

  NameNode的作用是管理文件目录结构,接受用户的操作请求,是管理数据节点的。名字节点维护两套数据,一套是文件目录与数据块之间的关系,另一套是数据块与节点之间的关系。前一套数据是静态的,是存放在磁盘上的,通过fsimage和edits文件来维护;后一套数据是动态的,不持久放到到磁盘的,每当集群启动的时候,会自动建立这些信息,所以一般都放在内存中。

  所以他是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。

文件包括:

①fsimage(文件系统镜像):元数据镜像文件。存储某一时段NameNode内存元数据信息。

②edits:操作日志文件。

③fstime:保存最近一次checkpoint的时间

以上这些文件是保存在linux的文件系统中

2. 特点

<1>是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。

<2>通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。

<3>容错。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失。

<4>适用于一次写入、多次查询的情况,不支持并发写情况,小文件不合适

3. 目录结构<1>既然NameNode维护这么多的信息,那么这些信息都存放在哪里呢?

  在hadoop源代码中有个文件叫做hdfs-default.xml,如图3.1所示。

图 3.1

<2>打开这个文件

  在第149行和第158行,有两个配置信息,一个是dfs.name.dir,另一个是dfs.name.edits.dir。这两个文件表示的是NameNode的核心文件fsimage和edits的存放位置,如图3.2所示。

图 3.2

  在对应配置的value值有${},这是变量的表示方式,ER表达式,在程序读取文件时,会把变量的值读取出来。那么,第150行的变量hadoop.tmp.dir的值(即hadoop临时存储路径),如图3.3所示。

图 3.3

但是在我们在上一章的配置文件core-site.xml中,配置的值是/usr/local/hadoop/tmp。

<3>我们可以进入linux文件系统

  执行命令 cd /usr/local/hadoop/conf,more core-site.xml查看到如图3.3所示的内容。

图 3.4

  可以看出,这两个文件的存储位置是在linux文件系统的/usr/local/hadoop/tmp/dfs/name目录下。

<4>我们进入这个目录

  查看这个目录的内容,如图3.5所示。

图 3.5

从图中可知,NameNode的核心文件fsimage和edits的存放在current目录下,与此同时name目录下有一个文件in_use.lock而查看其内容的时候发现,内容为空,也就是说只能有一个Namenode进程能够访问该目录,读者可以自己试一下,当没有开启hadoop时,该目录下是没有文件in_use.lock 的,当hadoop启动以后才会生成该文件。

<5>文件fsimage是NameNode的核心文件

  这个文件非常重要,丢失的话,Namenode无法使用,那么如何防止该文件丢失而造成不良后果呢。我可以下再次看一下hdfs-default.xml中的一段代码如图3.6所示。

图 3.6

由其中的描述可知,该变量,决定DFS NameNode 的NameTable(fsimage)应该在本地文件系统上的存储位置。如果这是一个用逗号分隔的列表的目录,那么nametable,会被复复制到所有的目录中,来冗余(备份来保证数据的安全性)。如${hadoop.tmp.dir}/dfs/name,~/name2,~/name3,~/name4。那么fsimage会分别复制到~/name1,~/name2,~/name3,~/name4目录中。所以这些目录一般是在不同的机器,不同的磁盘,不同的文件夹上,总之越分散越好,这样能保证数据的安全性。有人会问在多台机上怎么实现呢?其实在Linux中有nfs文件共享系统,这里不做详述。

<6>看一下edits的描述

  查看一下hdfs-default.xml中的一段代码如图3.7所示

图 3.7

由其中的描述可知,该变量,决定DFSNameNode的存储事务文件(edits)在本地文件系统上的位置。如果这是一个以逗号分隔的目录列表,那么,事务文件会被复制所有的目录中,来冗余。默认值是dfs.name.dir一样。(edit保存事务过程)

四、 HDFS的基本结构之DataNode1.作用 :  DataNode的作用是HDFS中真正存储数据的。2. block

  <1>如果一个文件非常大,比如100GB,那么怎么存储在DataNode中呢?DataNode在存储数据的时候是按照block为单位读写数据的。block是hdfs读写数据的基本单位。

  <2>假设文件大小是100GB,从字节位置0开始,每64MB字节划分为一个block,依此类推,可以划分出很多的block。每个block就是64MB大小。

2.1 我们看一下org.apache.hadoop.hdfs.protocol.Block类,

  这里面的属性有以下几个,如图4.1所示。

图4.1

由上图可知,类中的属性没有一个是可以存储数据的。 所以block本质上是一个逻辑概念,意味着block里面不会真正的存储数据,只是划分文件的。

2.2 为什么一定要划分为64MB大小呢?

  因为这是在默认配置文件中设置的,我们查看core-default.xml文件,如图4.2所示。

图4.2

上图中的参数ds.block.name指的就是block的大小,值是67 108 864字节,可以换算为64MB。如果我们不希望使用64MB大小,可以在core-site.xml中覆盖该值。注意单位是字节。

2.3 副本

<1>副本就是备份,目的当时是为了安全。正是因为集群环境的不可靠,所以才使用副本机制来保证数据的安全性。

<2>副本的缺点就是会占用大量的存储空间。副本越多,占用的空间越多。相比数据丢失的风险,存储空间的花费还是值得的。

<3>那么,一个文件有几个副本合适呢?我们查看hdfs-default.xml文件,如图4.3所示。

图4.3

从图4.3中可以看到,默认的副本数量是3。意味着HDFS中的每个数据块都有3份。当然,每一份肯定会尽力分配在不同的DataNode服务器中。试想:如果备份的3份数据都在同一台服务器上,那么这台服务器停机了,是不是所有的数据都丢了啊?

3. 目录结构3.1 DataNode是按block来划分文件的

  那么划分后的文件到底存放在哪里哪?我们查看文件core-default.xml,如图4.4所示。

图4.4

参数dfs.data.dir的值就是block存放在linux文件系统中的位置。变量hadoop.tmp.dir的值前面已经介绍了,是/usr/local/hadoop/tmp,那么dfs.data.dir的完整路径是/usr/local/hadoop/tmp/dfs/data。通过linux命令查看,结果如图4.5所示。

3.2 上传一个文件

  我们首先点击PieTTY打开另一个Linux终端,上传一个文件 jdk-6u24-linux-i586.bin,文件大小为 84927175k,如图4.5所示。

图4-5

然后我们可以在原来终端,查看上传文件,就是在该Linux文件系统的/usr/local/hadoop/tmp/dfs/data目录下,如图4.6所示

图 4.6

上图中以“blk_”开头的文件就是存储数据的block。这里的命名是有规律的,除了block文件外,还有后缀是“meta”的文件,这是block的源数据文件,存放一些元数据信息。因此,上图中只有2个block文件。

注意:我们从linux磁盘上传一个完整的文件到hdfs中,这个文件在linux是可以看到的,但是上传到hdfs后,就不会有一个对应的文件存在,而是被划分成很多的block存在的。而且由于我们的hadoop安装方式是伪分布安装,只有一个节点,DataNode和NameNode都在这一个节点上,所以上传的block块最终还是在该Linux系统中。五、 HDFS的基本结构之SecondaryNode

  HA的一个解决方案。但不支持热备。配置即可。由于数据操作越多edits文件膨胀越大,但不能让他无限的膨胀下去,所以要把日志过程转换出来 放到fsimage中。由于NameNode要接受用户的操作请求,必须能够快速响应用户请求,为了保证NameNode的快速响应给用户,所以将此项工 作交给了SecondaryNode,所以他也备份一部分fsimage的一部分内容。

执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits.默认在安装在NameNode节点上,但这样...不安全!

合并原理如图5.1所示。

图 5.1

原文链接:http://www.cnblogs.com/sunddenly/p/3977896.html

时间: 2025-01-02 19:27:20

HDFS深入浅析的相关文章

Hadoop OutputFormat浅析

在Hadoop中,OutputFormat和InputFormat是相对应的两个东西.相比于InputFormat,OutputFormat似乎没有那么多细节.InputFormat涉及到对输入数据的解析和划分,继而影响到Map任务的数目,以及Map任务的调度(见<Hadoop InputFormat浅析>).而OutputFormat似乎像其字面意思那样,仅仅是完成对输出数据的格式化. 对于输出数据的格式化,这个应该没什么值得多说的.根据需要,OutputFormat爱把输出写成什么格式就写

Alluxio源码分析:RPC框架浅析(三)

        Alluxio源码分析是一个基于内存的分布式文件系统,和HDFS.HBase等一样,也是由主从节点构成的.而节点之间的通信,一般都是采用的RPC通讯模型.Alluxio中RPC是基于何种技术如何实现的呢?它对于RPC请求是如何处理的?都涉及到哪些组件?本文将针对这些问题,为您一一解答.         继<Alluxio源码分析:RPC框架浅析(二)>一文后,本文继续讲解Alluxio中RPC实现.         4.Client端实现        以FileSystemM

Alluxio源码分析:RPC框架浅析(二)

        Alluxio源码分析是一个基于内存的分布式文件系统,和HDFS.HBase等一样,也是由主从节点构成的.而节点之间的通信,一般都是采用的RPC通讯模型.Alluxio中RPC是基于何种技术如何实现的呢?它对于RPC请求是如何处理的?都涉及到哪些组件?本文将针对这些问题,为您一一解答.         继<Alluxio源码分析:RPC框架浅析(一)>一文后,本文继续讲解Alluxio中RPC实现.         3.Server端实现:RPC Server端口绑定.传输协议

浅析Hadoop1.0与2.0设计原理

浅析Hadoop1.0与2.0设计原理 尧炜 马又良 简要介绍了Hadoop发展历史及其版本演进进程:详细阐述了Hadoop 1. 0中的HDFS 设计理念.架构.读取/写入数据流程和MapReduce架构.任务执行流程,以及Hadoop1. 0 功能不足问题:详细阐述了针对Hadoop1. 0 功能不足问题,Hadoop2. 0 所做的增强功能应对方案,包括NameNode HA 方案.HDFS Federation方案和YARN 设计原理等. 浅析Hadoop1.0与2.0设计原理

Hadoop HDFS 用户指南

This document is a starting point for users working with Hadoop Distributed File System (HDFS) either as a part of a Hadoop cluster or as a stand-alone general purpose distributed file system. While HDFS is designed to "just work" in many enviro

linux进程调度浅析

操作系统要实现多进程,进程调度必不可少. 有人说,进程调度是操作系统中最为重要的一个部分.我觉得这种说法说得太绝对了一点,就像很多人动辄就说"某某函数比某某函数效率高XX倍"一样,脱离了实际环境,这些结论是比较片面的. 而进程调度究竟有多重要呢? 首先,我们需要明确一点:进程调度是对TASK_RUNNING状态的进程进行调度(参见<linux进程状态浅析>).如果进程不可执行(正在睡眠或其他),那么它跟进程调度没多大关系. 所以,如果你的系统负载非常低,盼星星盼月亮才出现一

浅析win7下IE8主页被篡改的修复过程

浅析win7下IE8主页被篡改的修复过程 很多网友都有这个烦恼,在打开住页面时,页面就会开始变化,不再是自己熟悉的版本主页,所以要解决IE8被篡改的问题,我们就要充分的挖掘Windows7的系统"潜能",提升让IE8自我保护能力.现在我们深度xp系统下载一起来看看要怎么解决吧! 运行注册表编辑器,一次展开到HKEY_CURRENT_USER/Software/Policies/Microsoft,在此分支下新建一个名为"ControlPanel"的项,(具体操作为:

linux pi_futex浅析

Priority Inheritance,优先级继承,是解决优先级反转的一种办法. 一个经典的例子:A/B/C三个实时进程,优先级A>B>C.C持有a锁,而A等待a锁被挂起.原本C释放a锁之后,A进程就可以继续执行的,但是偏偏有个比C优先级高的B进程存在,导致C得不到运行,也就没法释放a锁,从而导致A进程一直挂起.从整体上看,进程B虽然比A优先级低,但它却成功的抢占掉了A.这就是所谓的优先级反转. 一种解决办法是优先级继承,C在持有a锁期间临时继承等待者A的优先级,那么B进程就无法从中捣乱了.

linux内核SMP负载均衡浅析

需求 在<linux进程调度浅析>一文中提到,在SMP(对称多处理器)环境下,每个CPU对应一个run_queue(可执行队列).如果一个进程处于TASK_RUNNING状态(可执行状态),则它会被加入到其中一个run_queue(且同一时刻仅会被加入到一个run_queue),以便让调度程序安排它在这个run_queue对应的CPU上面运行. 一个CPU对应一个run_queue这样的设计,其好处是: 1.一个持续处于TASK_RUNNING状态的进程总是趋于在同一个CPU上面运行(其间,这