Hadoop白皮书(2):分布式数据库HBase简介

  HBase 是一个面向列的分布式数据库。HBase 不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世纪七十年代为交易系统设计,以满足数据一致性 (ACID)为目标,并没有考虑数据规模扩大时的扩展性,以及单点系统失效时的可靠性。虽然经过多年的技术发展,产生了一些对关系性数据库的修补(并行数据库),然而受限于理论和实现上的约束,扩展性从来没有超过 40 个服务器节点。而 HBase 从一开始就是为 Terabyte 到Petabyte 级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。

  HBase 从 2008 年第一次商用开始,已经被越来越多的在线服务公司所采用。其中最大的是 Facebook 新上线的整合 Email, SNS, Chat 和短消息的在线即时消息系统。

  看看这个像不像中国移动的业务?

  分布式数据库 HBase 的特点和优势

  高可扩展性

  HBase 是真正意义上的线性水平扩展。数据量累计到一定程度(可配置),HBase系统会自动对数据进行水平切分,并分配不同的服务器来管理这些数据。这些数据可以被扩散到上千个普通服务器上。这样一方面可以由大量普通服务器组成大规模集群,来存放海量数据(从几个 TB 到几十 PB 的数据)。另一方面,当数据峰值接近系统设计容量时,可以简单通过增加服务器的方式来扩大容量。这个动态扩容过程无需停机,HBase系统可以照常运行并提供读写服务,完全实现动态无缝无宕机扩容。

  高性能

  HBase 的设计目的之一是支持高并发用户数的高速读写访问。这是通过两方面来实现的。首先数据行被水平切分并分布到多台服务器上,在大量用户访问时,访问请求也被分散到了不同的服务器上,虽然每个服务器的服务能力有限,但是数千台服务器汇总后可以提供极高性能的访问能力。其次,HBase 设计了高效的缓存机制,有效提高了访问的命中率,提高了访问性能。

  高可用性

  HBase 建立在 HDFS 之上。HDFS 提供了数据自动复制和容错的功能。HBase 的日志和数据都存放在 HDFS 上,即使在读写过程中当前服务器出现故障(硬盘、内存、网络等故障),日志也不会丢失,数据都可以从日志中自动恢复。HBase 系统会自动分配其他服务器接管并恢复这些数据。因此一旦成功写入数据,这些数据就保证被持久化并被冗余复制,整个系统的高可用性得到保证。

  数据模型及其特点

  HBase 是一个面向列的、稀疏的、分布式的、持久化存储的多维排序映射表(Map)。表的索引是行关键字、列簇名(Column Family)、列关键字以及时间戳;表中的每个值都是一个未经解析的字节数组。

  面向列:指的是同一个列簇里所有数据都存放在一个文件中,从而在读写时有效降低磁盘I/O的开销,并且由于类似数据存放在一起,提高了压缩比。经过压缩后的数据容量通常达到原来的 1/3 到 1/5, 极大节省了存储空间。

  多维表:这是对传统二维关系表的极大扩充。传统二维表有两维:行和列。列在设计表结构时必须预先固定,而行可以动态增加,也就是说有一个维度可动态改变。HBase的多维表有四维,列簇需要在设计表结构时事先确定,而行、列、时间维都可以动态增加。也就是说有三个维度可动态改变。这种结构非常适合用来表述有嵌套关系的数据。另外,动态增删列的能力也给很多业务带来便利,特别是这些业务在不停的演化,需要的列字段也在不停的增加,多维表结构可以随时进行改变以适应业务发展需求。

  稀疏表:由于多维表的列可以动态增加,必然导致不同行相同列的数据大部分为空,也就是说这个表是稀疏的。不像传统关系型数据库,HBase 不存放空值,只存放有内容的表格单元(cell),因此可以支持超大稀疏表,而不会带来任何开销。这对传统的表结构设计也带来了观念上的大改变。

时间: 2024-07-30 13:38:32

Hadoop白皮书(2):分布式数据库HBase简介的相关文章

什么是面向列开源分布式数据库Hbase - 产品和技术

什么是面向列开源分布式数据库Hbase 发布时间:2012.04.16 14:41      来源:和讯     作者:和讯 HBase是一个分布式的.面向列的开源数据库,由Apache基金会开发.HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.它基于列的而不是基于行的模式.用户存储数据行在一个表里.一个数据行拥有一个可选择的键和任意数量的列.用户可根据键访问行,以及对于一系列的行进行扫描和过滤.HBase一个可以横向扩张的表存储系统,能够为大规模数据提供速度极快的低等

分布式数据库 Hbase 的高可用管理和监控(一)

HBase 作为 BigTable 的一个开源实现,随着其应用的普及,越来越被各大企业应用于海量数据系统中.本文将向读者简要介绍 Apache HBase 的基本知识,并展开介绍 IBM 对 HBase 的改进和扩展,HBase Master 多结点高可用支持,以及如何利用 IBM BigInsights 在 IBM Hadoop 集群中对 HBase 服务和作业提交进行监控和管理.本文将帮助读者在大数据云计算 Hadoop 集群应用中利用 HBase 更加高效.直观.便捷地进行存储,查询和优化

分布式数据库 HBase

http://www.aliyun.com/zixun/aggregation/13713.html">HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统:Google运行MapReduce来

Hadoop白皮书(4):数据仓库Hive简介

Hive 是一种建立在 Hadoop 之上的数据仓库架构.它提供了: • 一套方便的实施数据抽取(ETL)的工具. • 一种让用户对数据描述其结构的机制. • 支持用户对存储在Hadoop中的海量数据进行查询和分析的能力. Hive 的基本特点是它采用 HDFS 进行数据存储并利用 Map/Reduce 框架进行数据操作.所以从本质上来说,Hive 就是个编译器,它把用户的操作(查询或者 ETL)变换成Map/Reduce 任务,利用 Map/Reduce 框架执行这些任务以对HDFS上的海量数

分布式数据库HBase表设计

比较常用的数据库是关系型数据库,但很多场景下nosql数据库会更加擅长,从sql到nosql实施的第一步就是设计表结构,这是两种不同的思维方式,这里说下HBase表设计. 需求:需要一张stock表用于保存市场所有股票的分钟走向,即每个股票每分钟记录一次价格. 方案一:瘦表. 用stockId+datetime作为RowKey,这样方便通过stockId或datetime快速扫描获取到相关记录. RowKey ColumnFamily "stock_cf" stockId+dateti

分布式数据库 Hbase 的高可用管理和监控(二)

图 5. BigInsights Web 管理界面 在 BigInsights Web 管理界面中点击"Cluster Status"页面,可以实现对 http://www.aliyun.com/zixun/aggregation/13713.html">HBase, Zookeeper 以及其他模块状态的监控.启停. "Cluster Status"页面左上方分别列出 BigInsights 集群中所有组件的服务的运行状态.可以看到所有服务目前都处

详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS.MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现.如有不足,后续及时修改. HDFS的体系架构 整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过M

非关系性分布式数据库:HBase

HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统".就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力.HBase在列上实现了Bigtable 论文提到的压缩算法.内存操作和布隆过滤器.Base是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.

基于分布式数据库的存储和hadoop的分布式计算的分布式sql计算方法

    1.  目录 2.      目录... 1 3.      背景和设计思想... 3 4.      架构... 3 没有代理节点... 4 有代理节点... 4 模块说明... 5 两种架构的区别... 5 5.      应用架构... 5 6.      基本概念说明... 6 7.      增删改操作... 6 8.      查询操作... 7 阶段树... 7 阶段... 7 查询步骤... 8 9.      例子... 8 均衡策略... 8 查询... 10 9..