[Hadoop]HBase物理模型

  1. Client

    包含访问HBase的接口并维护cache,加快对HBase的访问
    
  2. Zookeeper
    保证任何时候,集群中只有一个master
    存贮所有Region的寻址入口。
    实时监控Region server的上线和下线信息。并实时通知给Master
    存储HBase的schema和table元数据
    
  3. HMaster
    总控节点
    为Region server分配region
    负责Region server的负载均衡
    发现失效的Region server并重新分配其上的region
    管理用户对table的增删改查操作
    
  4. HRegionServer
    假设一个表有一亿行,数据量很大,根据分布式的思想,我们把它分成几个区域。假设分成10个区域,则每个区域有1千万行。我们把每个区域称之为一个Region。每个HRegionServer管理许多Region。
    Region server维护region,处理对这些region的IO请求
    Region server负责split在运行过程中变得过大的region
    

ZooKeeper存储所有Region的入口,Client通过访问它获得-ROOT-表的的location信息,接着通过-ROOT-表获得.META.表Region信息,最后再通过.META.表获得用户表的Region信息。Client会缓存这些信息,这样下次就可以直接获得用户表的Region信息。

如上图所示,当Client连上HReigonServer后,后者会打开相应的HRegion对象,为每个HColumeFamily创建Store实例,每个Store实例有一个MemStore,一个或多个StoreFile,StoreFile是HFile轻量级的包装。

  1. 写数据过程

    首先是把Log写入到HLog中,HLog是标准的Hadoop Sequence File,由于Log数据量小,而且是顺序写,速度非常快;同时把数据写入到内存MemStore中,成功后返回给Client,所以对Client来说,HBase写的速度非常快,因为数据只要写入到内存中,就算成功了。接着检查MemStore是否已满,如果满了,就把内存中的MemStore Flush到磁盘上,形成一个新的StoreFile。当Storefile文件的数量增长到一定阈值后,系统会进行合并(Compact),在合并过程中会进行版本合并和删除工作,形成更大的storefile。当Storefile大小超过一定阈值后,会把当前的Region分割为两个(Split),并由Hmaster分配到相应的HRegionServer,实现负载均衡

  2. 读数据过程

    由于无法直接修改HBase里的数据,所有的update和delete操作都转换成append操作,而且HBase里也没有索引,因此读数据都是以Scan的方式进行。Client在读数据时,一般会指定timestamp和ColumnFamily.首先,根据ColumnFamily可以过滤掉很大一部分Store,这也是HBase作为列式数据库的一大优势。然后,根据timestamp和Bloom Filter排除掉一些StoreFiles最后,在剩下的StoreFile (包含MemStore)里Scan查找

时间: 2024-08-01 19:20:28

[Hadoop]HBase物理模型的相关文章

org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 异常的解决

在使用HBase Shell的时候出现错误: ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 查看一下logs: FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown. org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.a

Hadoop HBase 单机环境简单配置教程

写在前面: Hadoop是Apache的一个项目,它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Distributed File System),其存储和数据结构很类似Google的GFS. HBase是Hadoop的子项目,它是基于Hadoop HDFS分布存储系统的一个Google BigTable开源实现(最近看了BigTable的Paper,很受鼓舞

hadoop +hbase +zookeeper 完全分布搭建 (版本一)

hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA.YARN等.最新的hadoop-2.6.0又增加了YARN HA 注意:apache提供的hadoop-2.6.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.0就需要重新在64操作系统上重新编译 一.重新编译  原因是hadoop-2.6.0.tar.gz安装包是在32位机器上编译的,64位的机器加载本地库.so文件时出错,不影响使用. 解决

hadoop 异常记录 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times

当我把hadoop.hbase安装配置(具体参考这里)好了之后,启动hbase的shell交互模式,输入命令却出现了下面这样的错误: ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 这是为什么呢,Master为什么没有启动起来呢? 查看logs目录下的Master日志,发现有以下信息: 2012-02-01 14:41:52,867 FATAL org.apache.hadoop.hbase.ma

Hadoop:hbase的搭建

注意:最新的HBase Shell已经取消了HQL支持,也就是说下面的资料中的插入和查询SQL语句都不可以用了.为了效率考虑,现在只提供get,put,scan等几个方法来处理数据. URL:http://hadoop.apache.org/hbase/docs/r0.1.1/api/overview-summary.html在已经创建的hdfs基础上搭建1:修改hadoop/contrib/hbase/conf/hbase-env.sh加入java_home的路径 2:修改hadoop/con

小米hadoop&hbase微实践

小米hadoop&hbase微实践 谢良 • 选型依据 • upstream重要issue • 集群check list • 若干案例解析 • 一些微改进点与社区回馈 小米hadoop&hbase微实践

hadoop +hbase +zookeeper 完全分布搭建 (版本二

这里有几个主要关系: 1.经过Map.Reduce运算后产生的结果看上去是被写入到HBase了,但是其实HBase中HLog和StoreFile中的文件在进行flush to disk操作时,这两个文件存储到了HDFS的DataNode中,HDFS才是永久存储. 2.ZooKeeper跟Hadoop Core.HBase有什么关系呢?ZooKeeper都提供了哪些服务呢?主要有:管理Hadoop集群中的NameNode,HBase中HBaseMaster的选举,Servers之间状态同步等.具体

【转载】hadoop/hbase 搭建

本文转载自http://shift-alt-ctrl.iteye.com/blog/2073581    因为工作需要,我们使用hbase + hadoop存储基于用户内容的数据(UGC),本文将描述如何逐步搭建此平台,仅作参考.   1. 环境     操作系统:Red hat 6.3,300G硬盘,双核CPU     JAVA:JDK1.6                         HBASE:hbase-0.98.1     Hadoop:hadoop-2.2.0       现在我

CentOS7搭建Hadoop + HBase + Zookeeper集群

一.基础环境准备 1.下载安装包(均使用当前最新的稳定版本,截止至2017年05月24日) 1)jdk-8u131 2)hadoop-2.7.3 3)hbase-1.2.5 4)zookeeper-3.4.10 以上下载地址请点击"阅读原文" 2.修改hosts文件(使用的三台集群主机默认IP为192.168.0.100.192.168.0.101.192.168.0.102) # vim /etc/hosts    添加以下信息    192.168.0.100 master