IDH HBase中实现的一些特性

IDH为Intel’s Distribution of Hadoop的简称,中文为英特尔Hadoop发行版,目前应该没有人在维护该产品了。这里简单介绍一下IDH HBase中实现的一些特性。

以下部分内容摘自IDH官方的一些文档,部分内容来自我的整理:

1、 单调数据的加盐处理

对于写入的rowkey是基本单调的(例如时序数据),IDH引入了一个新的接口:SaltedTableInterface

  • 提高近乎透明的“加盐”,方便使用
  • 封装了get、scan、put、delete等操作

2、提供了Rolling Scanner应对HFile数量大量增加情况下的get、scan性能

3、提供了ParallelClientScanner加速大范围查询性能

具体实现,请参考HBase客户端实现并行扫描

4、使得协作器实用化,从而可使用协作器来进行计算

相关说明,可以参考HBase实现简单聚合计算

5、提供基于lucene的全文检索

6、提供大对象的高效存储

  • 类似Oracle的BLOB存储
  • 对用户透明
  • 2x以上的写入性能,还有些进步空间
  • 2x的随机访问性能
  • 1.3x的scan性能
  • 接近直接写入hdfs性能

7、引入交互式的hive over hbase

  • 完全的hive支持,常用功能(select、group by、top n等等)用hbase协作器实现,其余功能(大表关联等等)用mapreduce无缝对接
  • 去除mapreduce的overhead,大大地减少了数据传输
  • 性能有3x-10x提升

具体介绍,请参考Hive Over HBase的介绍

8、支持跨数据中心的大表

9、HBase中支持对某列族设置副本数

10、可以通过定时任务设置文件压缩合并频率

时间: 2024-08-01 13:51:09

IDH HBase中实现的一些特性的相关文章

ZooKeeper原理及其在Hadoop和HBase中的应用

ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现.分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅.负载均衡.命名服务.分布式协调/通知.集群管理.Master选举.分布式锁和分布式队列等功能. 简介 ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现.分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅.负载均衡.命名服务.分布式协调/通知.集群管理.Master选举.分布式锁

Hive整合HBase:通过Hive读/写 HBase中的表

写在前面一: 本文将Hive与HBase整合在一起,使Hive可以读取HBase中的数据,让Hadoop生态系统中最为常用的两大框架互相结合,相得益彰. 写在前面二: 使用软件说明 约定所有软件的存放目录: /home/yujianxin 一.Hive整合HBase原理 Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler-0.9.0.jar工具类,如下图 Hive与HBase通信示意图 二.具体步骤 安装前说明 1.关

IBM DB2 Express-C 9.5.2中激动人心的新特性

或许您已经知道,DB2 Express-C 是 DB2 免费的社区版本.您可以将它应用在产品中,或者在应用系统中分发,或者只是为了简单的开发目的而使用它,并且所有这些都是免费的!尽管 DB2 Express – C 只能使用两个处理器和 2G 内存,但是您可以在任何大小的服务器上安装它,而且在数据库的大小上是没有任何限制的.与其他厂商提供的社区版本相比,这是相当慷慨的捐赠了. DB2 Express-C 的 9.5 版是在 2007 年 11 月发布.从那时起,几个重要的改进和新的特性已被添加到

在项目中透明地引入特性开关

在前几期的InfoQ专栏中刊登了一篇名为"使用功能开关更好地实现持续部署"的文章,文中讲解了 特性开关与Spring的集成应用.但如果项目没有依赖Spring,又该如何更好地使用特性开关呢?同时, 又该如何透明地引入,使得项目不至于完全依赖特性开关呢? 接下来我将结合我们在项目中实 际运用特性开关的经验,从另一个角度为大家介绍如何使用特性开关透明地实现功能屏蔽. 问 题 我们的团队正在开发一款在线保险产品,该产品下包括若干品牌,每个品牌有不同的目标用 户群,但提供的服务基本相同.当第一

元注解:@Retention 在hbase中用于获取确定高优先级的RPC操作

概念         注解@Retention可以用来修饰注解,是注解的注解,称为元注解.        Retention注解有一个属性value,是RetentionPolicy类型的,Enum RetentionPolicy是一个枚举类型,        这个枚举决定了Retention注解应该如何去保持,也可理解为Rentention 搭配 RententionPolicy使用.         RetentionPolicy有3个值:CLASS  RUNTIME   SOURCE   

ORACLE 12C RAC中使用in memory特性请注意parallel_degree_policy和parallel_force_local参数

在12C RAC的in memory测试中由于未正确启用并行,导致测试结果flush buffer cache后,总是出现大量并行,通过ORACLE 各方努力最终确定是由于parallel_degree_policy=AUTO和parallel_force_local=false开始未设置正确导致.在rac中需要imdb的朋友请注意这两个参数. 设置表存放中inmemory SQL> alter table CHF.XIFENFEI_888 inmemory; Table altered. SQ

HBase中的一些注意事项

1. 安装集群前 配置SSH无密码登陆 DNS.HBase使用本地 hostname 才获得IP地址,正反向的DNS都是可以的.你还可以设置 hbase.regionserver.dns.interface 来指定主接口,设置hbase.regionserver.dns.nameserver 来指定nameserver,而不使用系统带的 安装NTP服务,并配置和检查crontab是否生效 操作系统调优,包括最大文件句柄,nproc hard 和 soft limits等等 conf/hdfs-s

shell-试图在hbase中create table1报错

问题描述 试图在hbase中create table1报错 我是hbase的新手,安装了用本地file system的hbase,没有装hadoop/hdfs. 用bin/start-hbase.sh启动了hbase,可以用ps -ef看到HMaster进程,但用 jps | grep HMaster,什么都看不到.然后用bin/hbase shell,试图 create table, 报错: ERROR: Can't get master address from ZooKeeper; zno

spark streaming 中使用saveAsNewAPIHadoopDataset方法写入hbase中,从checkpoint中恢复时报错

问题描述 最近写了一个从Kafka读取数据,处理之后通过saveAsNewAPIHadoopDataset方法写入到hbase中,正常运行的时候没有报错,写入也正常,但是当手动停止应用,再次执行(通过Checkpoint恢复)的时候就会报错,跪求大神们解答!!报错信息如下:15/12/2216:26:52WARNVerifiableProperties:Propertyserializer.classisnotvalid15/12/2216:26:57WARNFileOutputCommitte