HBase使用教程

1 基本介绍

1.1 前言

HBase – Hadoop Database，是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

2 安装和使用

2.1 下载

HBase的官方网站http://www.apache.org/dyn/closer.cgi/hbase/上面可以下载到各种版本。目前用最新版本是0.98.2，建议下载stable目录下的稳定版本。

2.2 安装

安装依赖基础要求

1. Linux操作系统

根据HBase的官方介绍，HBase没有在windows下测试过，因而，我们都是将HBase安装在Linux操作系统上。我本机安装的Ubuntu 12.04的虚拟机。

2. Jdk

HBase需要jdk支持其运行，jdk版本要求是1.6及其以上。

这里暂且把Linux虚拟机的安装和虚拟机上jdk的安装过程跳过，可以参照网上其他相关资料执行。

HBase的安装方法比较简单，将我们下载的HBase的安装包hbase-0.94.20.tar.gz拷贝到Linux的根目录下。

接着执行以下命令和配置，之后启动HBase：

1. 解压缩安装包

root@ubuntu:/# tar xfz hbase-0.94.20.tar.gz

root@ubuntu:/# cd hbase-0.94.20

2. 配置数据存储目录

正如官方文档描述的那样，这时我们可以直接启动HBase，这样的话，使用的数据存储目录为 /tmp/hbase-${user.name}，也就意味着，我们一旦重启Linux，我们先前存储的数据就将丢失。

Linux下执行以下命令：

root@ubuntu:/# cd /hbase-0.94.20/conf/

root@ubuntu:/hbase-0.94.20/conf# vi hbase-site.xml

之后，修改配置文件内容为：

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl"href="configuration.xsl"?>

<name>hbase.rootdir</name>

<value>file:///hbase_data/hbase</value>

</property>

</configuration>

3. 启动HBase

root@ubuntu:/hbase-0.94.20/conf# ../bin/start-hbase.sh

starting master, logging to/hbase-0.94.20/bin/../logs/hbase-root-master-ubuntu.out

至此，单机模式启动HBase已经完成了。HBase的停止脚本是相同目录下的stop-hbase.sh。

2.3 HBase安装模式

在上一节中我们提到，我们安装的是单机模式。单机模式表示，我们所有的服务都运行在一个JVM上，包括HBase和Zookeeper。

另外，HBase还有两种安装模式：伪分布式模式和分布式模式。

伪分布式模式是把进程运行在一台机器上，但不是一个JVM。

完全分布式模式就是把整个服务被分布在各个节点上了。

伪分布式模式和分布式模式依赖安装较多其他组件和服务，安装过程较为复杂，将会在另一篇文章中专门介绍。

3 开始一个例子

大多数技术人员happy的时候开始了。我们开始一个简单的Helloworld。

3.1 使用HBase shell连接HBase

使用HBase自带的客户端连接工具，连接到HBase：

3.2 创建User表

输入以下命令并执行：

3.3 对User表简单地增删改查

往User表中插入一条信息：

查询刚才插入的信息：

3.4 检查数据存储目录

我们看一下之前我们配置的数据存储目录的变化：

我们可以看到，在之前配置的数据存储目录下，已经新添加了一些用于存储我们刚才存入的数据的文件了。

4 HBase基础定义和概念

4.1 表

HBase是一个数据库，数据以表的形式存储在Hbase中。

正如我们在hello world中定义中的User表类似，HBase的表的结构如下所示：

Row Key	Time Stamp	ColumnFamily contents	ColumnFamily anchor
"com.cnn.www"	t9		anchor:cnnsi.com = "CNN"
"com.cnn.www"	t8		anchor:my.look.ca = "CNN.com"
"com.cnn.www"	t6	contents:html = "<html>..."
"com.cnn.www"	t5	contents:html = "<html>..."
"com.cnn.www"	t3	contents:html = "<html>..."