Impala与HBase整合实践

我们知道，HBase是一个基于列的NoSQL数据库，它可以实现的数据的灵活存储。它本身是一个大表，在一些应用中，通过设计RowKey，可以实现对海量数据的快速存储和访问。但是，对于复杂的查询统计类需求，如果直接基于HBase API来实现，性能非常差，或者，可以通过实现MapReduce程序来进行查询分析，这也继承了MapReduce所具备的延迟性。
实现Impala与HBase整合，我们能够获得的好处有如下几个：

可以使用我们熟悉的SQL，像操作传统关系型数据库一样，很容易给出复杂查询、统计分析的SQL设计
Impala查询统计分析，比原生的MapReduce以及Hive的执行速度快很多

Impala与HBase整合，需要将HBase的RowKey和列映射到Impala的Table字段中。Impala使用Hive的Metastore来存储元数据信息，与Hive类似，在于HBase进行整合时，也是通过外部表（EXTERNAL）的方式来实现。

准备工作

首先，我们需要做如下准备工作：

安装配置Hadoop集群（http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_4_4.html）
安装配置HBase集群（http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_20.html）
安装配置Hive（http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_18.html）
安装配置Impala（http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_noncm_installation.html?scroll=noncm_installation）

涉及到相关系统的安装配置，可以参考相关文档和资料。
下面，我们通过一个示例表test_info来说明，Impala与HBase整合的步骤：

整合过程

在HBase中创建表

首先，我们使用HBase Shell创建一个表，如下所示：

`1`	`create` `'test_info',` `'info'`

表名为test_info，只有一个名称为info的列簇（Column Family），我们计划该列簇中存在4个列，分别为info:user_id、info:user_type、info:gender、info:birthday。

在Hive中创建外部表

创建外部表，对应的DDL如下所示：

`1`	`CREATE` `EXTERNAL` `TABLE` `sho.test_info(`

`2`	`user_id string,`

`3`	`user_type tinyint,`

`4`	`gender string,`

`5`	`birthday string)`

`6`	`ROW FORMAT SERDE` `'org.apache.hadoop.hive.hbase.HBaseSerDe'`

`7`	`STORED` `BY` `'org.apache.hadoop.hive.hbase.HBaseStorageHandler'`

`8`	`WITH` `SERDEPROPERTIES ("hbase.columns.mapping"` `=` `":key, info:user_type, info:gender, info:birthday")`

`9`	`TBLPROPERTIES("hbase.table.name"` `=` `"test_info");`

上面DDL语句中，在WITH SERDEPROPERTIES选项中指定Hive外部表字段到HBase列的映射，其中“:key”对应于HBase中的RowKey，名称为“user_id”，其余的就是列簇info中的列名。最后在TBLPROPERTIES中指定了HBase中要进行映射的表名。

在Impala中同步元数据

Impala共享Hive的Metastore，这时需要同步元数据，可以通过在Impala Shell中执行同步命令：

`1`	`INVALIDATE METADATA;`

然后，就可以查看到映射HBase中表的结构：

`1`	`DESC` `test_info;`

表结构如图所示：

通过上面三步，我们就完成了Impala和HBase的整合配置。

验证整合

下面，我们通过实践来验证上述的配置是否生效。
我们模拟客户端插入数据到HBase表中，可以使用HBase API或者HBase Thrift来实现，这里我们使用了HBase Thrift接口来进行操作，详见文章 HBase Thrift客户端Java API实践。
然后，我们就可以通过Impala Shell进行查询分析。基于上面创建整合的示例表，插入20000000（2000万）记录，我们做一个统计分析的示例，SQL语句如下所示：

`1`	`SELECT` `user_type,` `COUNT(user_id)` `AS` `cnt` `FROM` `test_info` `WHERE` `gender='M'` `GROUP` `BYuser_type` `ORDER` `BY` `cnt` `DESC` `LIMIT 10;`

运行结果信息，如下图所示：

上述程序运行所在Hadoop集群共有3个Datanode，执行上述统计SQL共用时88.13s。我的Hadoop集群配置比较低，2个节点是双核CPU，另一个是4核，内存足够，大概10G左右，而且还有好多程序在共享这些节点，如数据库服务器、SOLR集群等。如果提高配置，做一些优化，针对20000000（2000万）条记录做统计分析，应该可以在5s以内出来结果。
由于测试数据是我们随机生成的，gender取值为’M’和’F’，user_type的值为1到10，经过统计分组后，数据分布还算均匀。

时间： 2024-08-31 15:32:16

Impala与HBase整合实践的相关文章

Hive与Hbase整合

Hive与Hbase整合我们这边开始使用hbase做实时查询,但是分析的任务还是得交给hive,hive计算的结果导入到hbase. hive提供了几个jar包,帮助我们实现: 创建与hbase共享的表,数据(数据和表两边都有) 映射来自hbase的表到hive hive查询的结果直接导入hbase 启动hive 启动命令如下,主要是指定jar包,以及hbase使用的zookeeper的地址 bin/hive --auxpath /opt/CDH/hive/lib/hive-hbase-han

服务器-Springmvc 和 Hbase整合

问题描述 Springmvc 和 Hbase整合求大神指点运行到图中红线处报错,但是我用junit 测试这个方法是正常的,部署到tomcat服务器上之后运行就会出错.HbaeDAO就是访问hbase的一个类,测试运行的时候没问题的解决方案这不是明显的少jar包吗

SNS与在线旅游的整合实践

SNS与在线旅游的整合实践 (5月12日,应邀在环球旅讯高峰论坛上做了"SNS与在线旅游"的主题演讲,以下内容根据演讲记录整理而成.) 摘要:旅游本身的黏度不足以支持SNS,另外SNS架构也不利于内容的积累.分类与检索,因此纯粹的旅游SNS很难成功.但SNS在用户互动方面的优势使其天然适合作为旅游社区的操作系统来使用,在电子商务中植入SNS元素也是很好的尝试. SNS用户互动强于BBS, 但在内容整合方面存在致命缺陷社会化网络服务SNS在2008年,是整个互联网最热门的词汇.它是以个

小米hadoop&hbase微实践

小米hadoop&hbase微实践谢良 • 选型依据 • upstream重要issue • 集群check list • 若干案例解析 • 一些微改进点与社区回馈小米hadoop&hbase微实践

Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑.这也得益于Scala编程语言的简洁性.这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算. 我们的应用场景是分析用户使用手机App的行为,描述如下所示: 手机客户端会收集用户的行为事件(我们以点击

大数据工具篇之Hive与HBase整合完整教程

一.引言最近的一次培训,用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase,关于这部分基于HBase Java API的写入方式,之前曾经有过技术文章共享,本文就不再说明.本文基于Hive执行HDFS批量向HBase导入数据,讲解Hive与HBase的整合问题.这方面的文章已经很多,但是由于版本差异,可操作性不大,本文采用的版本均基于以下版本说明中的版本. 二.版本说明序号软件版本 1 Hive 0.10.0 2 HBase 0.94.0 3 Hadoop 1.

HBase最佳实践－多租户机制简析

背景介绍在HBase1.1.0发布之前,HBase同一集群上的用户.表都是平等的,没有优劣之分.这种'大同'社会看起来完美,实际上有很多问题.最棘手的主要有这么两个,其一是某些业务较其他业务重要,需要在资源有限的情况下优先保证核心重要业务的正常运行,其二是有些业务在某些场景下会时常'抽风',QPS常常居高不下,严重消耗系统资源,导致其他业务无法正常运转.这实际上是典型的多租户问题,社区针对这个问题提出了相应的应对措施,主要有如下三点: (1)资源限制,主要针对用户.namespace以及表的Q

Kafka+Storm+HDFS整合实践

在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了.实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理.为了统一离线和实时计算,一般情况下,我们都希望将离线和实时计算的数据源的集合统一起来作为输入,然后将数据的流向分别经由实时系统和离线分析系统,分别进行分析处理,这时我们可以考虑将数据源(如使用Flume收集日志)直接连接

HBase最佳实践 – 客户端重试机制

在运维HBase的这段时间里,发现业务用户一方面比较关注HBase本身服务的读写性能:吞吐量以及读写延迟,另一方面也会比较关注HBase客户端使用上的问题,主要集中在两个方面:是否提供了重试机制来保证系统操作的容错性?是否有必要的超时机制保证系统能够fastfail,保证系统的低延迟特性? 这个系列我们集中介绍HBase客户端使用上的这两大问题,本文通过分析之前一个真实的案例来介绍HBase客户端提供的重试机制,并通过配置合理的参数使得客户端在保证一定容错性的同时还能够保证系统的低延迟特性. 案

猜你喜欢

淘宝店铺首页设计:店铺风格和信息设计

文章简介:淘宝店铺首页设计规划. 电商卖家对淘宝店铺设计的要求正在越提越高,区别于京东和拍拍,淘宝店铺首页的设计至关重要,这里是最重要的门面. 淘宝集市店和商城店在首页装修上有一点小区别就是集市店页头 ...

SQL Server 2000的SA密码被破解实例

提到sa弱口令,我们首先就会想到,许多数据库都有1个类似的超级管理员账号,比如:Oracle是"system"和"sys",Sybase也是"sa&q ...

思科PIX ASDM的安装与故障排除

为了简化PIX防火墙配置,思科提供了自适应安全设备管理器(ASDM).自适应安全设备管理器为配置选择的PIX防火墙提供了一个功能强大的.使用方便的接口.(参见思科的文件或者网站上支持自适应安全设备管理 ...

后台产品交互设计:了解用户目标改善用户体验

文章描述:更贴近业务及用户--交互设计工作方式转变感言. 引子: 年初时交互设计师与产品经理座谈,议题关于交互设计师应从哪个工作环节切入更能发挥其自身价值.结论是交互随产品经理参与到项目初期需求挖掘阶 ...

C#中Windows通用的回车转Tab方法

window 原来一直是为每个文本框的KeyPress增加: if(e.KeyChar = '\r') SendKeys.Send("{TAB}"); 最近想想,其 ...

Flash制作动画之掌握基本按钮知识

按钮问题1:如何制作按钮?为什么我制作的文字按钮,很不容易点击到? 解决思路在按钮编辑区的时间轴上只有四个帧,第4帧的"点击"是按钮的反应区,这个区域在舞台中是看不到的,但是他 ...

排除vs2005中的不安全函数警告

下面的代码: #include <stdio.h> #include <minmax.h> int main( ) { int a,b,c; scanf("%d,%d ...

综合布线工作区与电信间安装工艺

(1)工作区 1)工作区的通信引出端(又称信息插座)的安装工艺,宜符合以下规定. ①安装在地面上的信息插座接线盒应有防水和抗压的性能. ②安装在墙壁或柱子上的信息插座底盒.多用户信息插座盒与集合点配线 ...

Win7/XP下IE收藏夹位置在哪里？

Windows XP系统IE收藏夹位置如下:C:Documents and SettingsUserFavorites Windows 7系统如下:C:UsersuserFavorites 其中C是表 ...

PS把人物头像与石头合成技巧

把人物处理成石像难度是非常大的,跟鼠绘一样,需要根据石雕手法把人物画出来.这里介绍一种最为简单的方法,不过精度不是很好,直接在人物素材上面处理,只需简单去色,增加细节和纹理,再润色即可. 教程最终效果 ...

百度首页新版功能介绍

今日登录百度,发现百度首页全新改版了,如下图所示,出现了"百度首页震撼升级,为你带来全新体验"的窗口提示,往下拉可以看到新版的相关介绍. 看完了引导后,正式进入百度首页,搜索框 ...

wfs方式获取最短路径

之前有几篇文章结束基于pgrouting的最短路径规范,获取最短路径用的是wms方式,这样的好处就是路径样式可以预先是geoserver中设置好,且路径渲染由geoserver在后台渲染.但是用户的需 ...

c++-求大神指点C++ template使用问题

问题描述求大神指点C++ template使用问题这是程序代码这是编译结果我想试试用template写一个返回较小值的方法,但是为什么会出错呢?还想请教的问题是如果用Mac的话,在termina ...

求php后台管理模版，初学者不会设计

问题描述求php后台管理模版,初学者不会设计求php后台管理模版,新手初学php,想用php进行后台设计,可是不知道怎样设计,求大神指点解决方案 google去搜索找一些国外的模板解决方案二: ...

如何提高测试用例设计的测试覆盖率

说到测试用例的设计,我想每个有过测试经历的测试工程师都会认为很简单,不就是:按需求或概要设计,得到软件功能划分图,然后据此按每个功能,采用等价类划分.临界值.因果图等方法来设计用例就行了. 但事实上撇 ...

网上广告效果监测技巧

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅准确的广告效果监测,能让你有的放 ...

Galaxy Note3如何使用单手操作模式?(N9006,N9008,N9002,N9009)

1. 在待机屏幕上,点击[应用程序]. 2. 滑动屏幕点击[设定]. 3. 点击[控制],选择[单手操作]. 4. 将需要单手操作的选项进行勾选即可. 5. 点击[了解 ...

《人民的名义》达康书记的同款火了，另一爆款“天网工程”你也有

<人民的起义>,不,是<人民的名义>火了,达康书记的表情包成了新一代网红,连同款水杯都成为淘宝爆款.作为一个安防小编,也是被剧中各种安防设备亮瞎眼,满大街的视频监控,场景中的车 ...

硬件配置文件-zedboard的启动文件之system.bit

问题描述 zedboard的启动文件之system.bit 求zedboard的启动文件的boot.bin中的system.bit生成方法,看了陆佳华的书他那上没有介绍启动文件中system.bit的 ...

电视-[问题]android的Screen Mirror投影可以用程式控制？

问题描述 [问题]android的Screen Mirror投影可以用程式控制? Screen Mirror - android 要将萤幕的画面藉由HDMI的连线到Smart TV後,作画面的同步放 ...

Eclipse设置默认编码为UTF-8

需要设置的几处地方为: Window->Preferences->General ->Content Type->Text->JSP 最下面设置为UTF-8 Wind ...

php中常用的正则表达式(日期电话 html 中文邮箱）

这里包括了,日期的正则验证日期数字电话号码式时间格式等一些常用的正则表达式匹配中文字符的正则表达式: [u4e00-u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 ...

如何解决Windows 7提示没有管理员权限

当我们发现某些文件无法修改时,我们就需要取得这个文件的管理员所有权,取得之后,就可以想怎么修改就怎么修改了. 操作步骤: 提示:修改注册表有风险,请慎重操作. 方法一:为Windows 7的右键菜单添 ...

线下数据争夺战：实体店如何玩转大数据

在线软件与线下传统商业之间的整合从来都是艰辛坎坷的过程,挑战巨大.但过去几年中,互联网企业开始将目光投向传统行业,开发出能帮助传统企业在数字时代生存和发展的平台方案. 网络零售商和实体店下一个争夺的 ...

尝试用HttpClient登陆淘宝的问题，求助各位大虾

问题描述今天调试了一天了,怎么都登陆不上,下面是我的代码,各位大虾看看.importjava.io.IOException;importorg.apache.commons.httpclient.C ...

《UG NX10中文版完全自学手册》——第1章 UG NX10入门基础1.1　UG NX10的启动

第1章 UG NX10入门基础 UG(Unigraphics)是Unigraphics Solutions公司推出的集CAD/CAM/ CAE为一体的三维机械设计平台,也是当今世界广泛应用的计算机辅助 ...

《Adobe Premiere Pro CS5经典教程》——2.10　复习

2.10 复习 2.10.1 复习题 1． New Sequence对话框内General选项卡有什么作用? 2．怎样让Adobe Premiere Pro导入所有JPEG,使它们的尺寸缩放到与当前 ...

欧盟指谷歌篡改搜索结果牟利罚款或高达90亿美元

据外媒6月16日报道,欧盟指控谷歌篡改搜索结果牟取私利,罚款金额可能高达90亿美元. 在为期7年对谷歌调查后,欧盟指控谷歌滥用搜索引擎优势,构建不正当的谷歌购物服务.据<华尔街日报>消息, ...

打造基于jQuery的高性能TreeView(asp.net)_jquery

根据我的项目实践情况,主要是几个关键点: 1:支持静态的树,即一次性将全部数据加载到客户端.2:异步树,即一次只加载一级或若干级节点,子节点可以异步加载数据.3:Checkbox树(可能是静态树也可能 ...

Google关闭旗下众多服务视频上传功能将禁用

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅北京时间1月15日消息据国外媒体 ...

热搜