Hbase 学习（八）使用MapReduce&华为二级索引（原理）

在hbase的demo里面有个IndexBuilder的例子，它就是使用了MapReduce来操作hbase的，例子也比较简单，但是只包括了Mapper。

另外网上还有另外一个例子，也是说明这个的，这个例子更为全面一点，包括了Mapper和Reducer。

http://www.cnblogs.com/chenli0513/archive/2012/01/06/2314886.html

这里就不说什么了，很简单，一看就懂。

这个是华为的二级索引方案，已经开放源代码了,下面是网上的一篇讲解原理的帖子，发出来和大家共享一下。

经过本人认真阅读了一下代码，发现这个源码仅供参考，想要集成到原有的集群当中是有点儿难度的，它对hbase的源码进行不少的修改。

源码地址：https://github.com/Huawei-Hadoop/hindex

下面来对其方案做一个分析。

1.整体架构

这个架构在Client Ext中设定索引细节，在Balancer中收集信息，在Coprocessor中管理二级索引数据。

2.表创建

在创建表的时候，在同一个region server上创建索引表，且一一对应。

3.插入操作

在主表中插入某条数据后，用Coprocessor将索引列写到索引表中去，写道索引表中的数据的主键为：region开始key+索引名+索引列值+主表row key。这么做，是为了让其在同一个分布规则下，索引表会跟主表在通过region server上，在查询的时候就可以少一次rpc。

4.scan操作

一个查询到来的时候，通过coprocessor钩子，先从索引表中查询范围row，然后再从主表中相关row中扫描获得最终数据。

5. split操作处理

为了使主表和索引表在同一个RS上，要禁用索引表的自动和手动split，只能由主表split的时候触发，当主表split的时候，对索引表按其对应数据进行划分，同时，对索引表的第二个daughter split的row key的前面部分修改为对应的主键的row key。

6. 性能

查询性能极大提升,插入性能下降10%左右

总结：

本文对华为hbase使用coprocessor进行二级索引的方案的创建表，插入数据，查询数据的步骤进行了一个粗略分析，以窥其全貌。在使用的时候，可以作为一个参考。

转载自：http://www.dengchuanhua.com/167.html

时间： 2024-11-04 00:22:33

Hbase 学习（八）使用MapReduce&华为二级索引（原理）的相关文章

HBase二级索引与Join

二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案. 这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join.文末同时会列出目前已知的包括0.19.3版secondary index, ITHbase, Facebook方案和官方Coprocessor的介绍. 理论目标在HBase中实现二级索引与索引Join需要考虑三个目标: 1,高性能的范围检索. 2,数据的低冗余(存储所占的数

HBase二级索引

我们会经常谈及二级索引,这是对全表数据进行另外一种方式的组织存储,是针对table级别的.如果要为HBase上的表实现一个强一致性的二级索引,那么就无法逃避分布式事务,而这一直是用户最期待的功能. 而即使只需要保证最终一致性,这个索引也并不好实现,因为你需要额外的表以存储过程数据,需要解决宕机恢复问题等撇开分布式事务,我们是否可以考虑对索引的要求进行降级,比如把Region看成是全表下的子表,实现一套Region级别的索引,通过功能上的牺牲以换取实现的简易及稳定一般来说,对数据库建立索引,往

HBase学习笔记——避免热点Region的一些技巧

HBase row key设计得不好.频度各异的查询类型,会导致热门数据集中坐落在某几个Region上,造成Region热点,集群负载不均衡. 能采取哪些解决方案,首先要明确访问模式,然后针对性优化: 牺牲有序性,散列化row key. 如果不需要数据的有序性: 在row key首部增加原始row key的hash code,使数据均匀散列. 或者,将原始row key的MD5作为实际的row key. 对整个row key散列牺牲了有序性和根据前缀匹配进行范围扫描的能力. 为此,我们也可以对r

HBase学习总结(3)：HBase的数据模型及工作机制

一.HBase数据模型 HBase模式里的逻辑实体包括: (1)表(table):HBase用表来组织数据.表名是字符串(String),由可以在文件系统路径里使用的字符组成. (2)行(row):在表里,数据按行存储.行由行键(rowkey)唯一标识.行键没有数据类型,总是视为字节数组byte []. (3)列族(column family):行里的数据按照列族分组,列族也影响到HBase数据的物理存放,因此,它们必须事前定义并且不轻易修改.表中每行拥有相同列族,尽管行不需要在每个列族里存储数

HBase学习笔记——高表与宽表的选择

hbase中的宽表是指很多列较少行,即列多行少的表,一行中的数据量较大,行数少:高表是指很多行较少列,即行多列少,一行中的数据量较少,行数大. hbase的row key是分布式的索引,也是分片的依据. hbase的row key + column family + column qualifier + timestamp + value 是HFile中数据排列依据.HFile据此,对数据的索引到data block级别,而不是行级别.所以这种key是HFile内部的粗粒度(data block

[MySQL 源码] innodb如何创建二级索引

以下为分析问题时的随笔.写的很凌乱,仅做记录,以备后用...... ////////////////////////////////////////////////////////////// ha_innobase::add_index是innodb创建索引的接口函数. 以下所有的讨论都是基于创建一个非聚集的二级索引.因此一些过程是被省略掉了. 1.获取数据词典信息 indexed_table = dict_table_get(prebuilt->table->name,

Cassandra1.1.1建立复合主键后，如何再建立二级索引？ -

最近在使用Cassandra,版本为1.1.1, CQL版本为3.0.0.遇到如下问题. 目标:利用复合主键进行查询和排序,并想利用二级索引进行多条件查询. 首先CQL建表,用到复合主键(instigator, startedAt): &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; CREATE TABLE altercations ( instigator text, startedAt text, ships

在hadoop下运用Mapreduce构建文本索引

在hadoop下运用Mapreduce构建文本索引樊超 Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序.文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引.在hadoop环境中构建文本索引,能够为搜索引擎和文档全文索引提供支持,并且同时兼顾了分布式系统的优点.在Hadoop环境中构建本索引的主要价值有:在分布式平台Hadoop建立倒排索引可以提高建立索引的速度,能够方便的存储大数据量,有着

二级域名原理以及程序

程序|二级域名二级域名原理以及程序,申请即可开通 [普通框架式二级域名] 要达到二级名的效果,必须一下条件以及流程:1.必须有一个顶级域名,而且此域名必须做好泛解析并做好指向.2.必须有一台独立的服务器.泛解析的域名指向该服务器.3.在服务器上的IIS建一个空的主机头名的web站点.4.将默认的页面设置为你的二机解析程序(比如:freedns.asp)5.二级域名系列程序(包括申请页:shenqing.htm,添加页add.asp,解析页,) 此程序的优点:a,可以限制申请域名的敏感字,比如

猜你喜欢

coco2d-x 纹理研究

1.通常情况下用PVR格式的文件来进行图片显示的时候,在运行速度和内存消耗方面都要比PNG格式要快和小.一般情况下PVR消耗的内存比PNG消耗的内存小25%左右.PVR格式可以用ZWoptex导出.P ...

mysql-執行階段錯誤&amp;#39;13&amp;#39; 型態不符合 ----VBA 連接MYSQL多表查詢

问题描述執行階段錯誤'13' 型態不符合 ----VBA 連接MYSQL多表查詢 ** 請教各位高手: 我在VBA中如下連接mysql單表查詢沒問題,有數據出來. ** .CommandText = ...

使用Google Analytics跟踪404页面

404页面是当访问者输入了错误的地址或者访问了被删除的页面时,服务器返回的错误页面(404 HTTP 状态代码).这个页面除了告诉访问者页面不存在以外,不提供任何有价值的信息.访问者可能就此离开网站. ...

搜索引擎的投票原理与实践操作

投票原理在搜索引擎优化中是我们经常提及的词,锚文本外链对关键词的投票,优质内容对网站信用度的投票,友情链接互相网站的投票等等,这些都是我们经常看到的投票,我们知道好的投票对我们网站的关键词排名是有帮助 ...

也说C#实现对Word文件读写

word 手头上的一个项目报表相对比较简单,所以报表打印采用VBA引擎,通过定制Word模版,然后根据模版需要填充数据,然后OK,打印即可. 实现方法:首先需要引用VBA组建,我用的是Office ...

F#学习之路(7) 集合类型

上一篇博客,介绍了列表类型,本篇将介绍数组类型Array.字典类型(Map),以及可变数组(ResizeArray).Set类型. 一.数组类型 (Array) 数组类型,在语义上表示一组相同类型的集 ...

Oracle中Rollback&amp;Truncate操作对高水位线影响：性能优化

Test 1. 创建一个用户leonarding并授予dba权限 SYS@LEO> create user leonarding identified by leonarding default ...

如何更改火狐浏览器主题

如何更改火狐浏览器主题打开火狐浏览器点击右上角按钮点击定制按钮然后单击主题按钮会有许多主题皮肤弹出选择一个自己喜欢的主题并单击点击右侧下方的退出定制,设置就完成了 ...

PhotoShop切片工具切割图片转成网页格式教程

PhotoShop中:切片工具是该软件自带的一个平面图片制作工具. 切片工具:将一个完整的网页切割许多小片,以便上传.是将我们设计的网页设计稿切成一片一片的,或一个表格一个表格的,这样我们可以对每一张 ...

php实现的mongodb操作类实例

本文实例讲述了php实现的mongodb操作类.分享给大家供大家参考.具体如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 ...

常用网络命令及命令详解

测试物理网络的 PING ping 192.168.0.8 -t ,参数-t是等待用户去中断测试查看DNS.IP.Mac等 A.Win98:winipcfg B.Win2000以上:Ipconf ...

zip文件怎么打开

zip文件怎么打开现在免费的压缩软件做的比较好的如:好压,360压缩都不错,随便现在一个安装,就会自动关联zip文件,然后进行解压操作,就能把压缩包里的文件解压出来,也就打开z ...

MySQL启动错误Starting MySQL.Manager of pid-file quit without updating file.[FAILED]

上午刚装完MySQL,启动时报如下错误: Starting MySQL.Manager of pid-file quit without updating file.[FAILED] 依次尝试了从谷姐 ...

qt程序发布时在.pro文件中没有添加使用的库在发布时却要加上？

问题描述 qt程序发布时在.pro文件中没有添加使用的库在发布时却要加上? 解决方案 http://blog.sina.com.cn/s/blog_79ab4be10101p1dk.html

代码-关于按钮下拉列表的问题

问题描述关于按钮下拉列表的问题点击一个按钮,它会下拉出一个按钮列表,Java代码应该怎么写?是用ListView么?求大神们帮帮忙啦解决方案应该是JToolBar,可以在上面放许多JButto ...

淘宝开放平台高级技术专家顾风胜：淘宝开放平台海量订单实时同步与处理实践

大流量高并发互联网应用实践在线峰会官网:https://yq.aliyun.com/activity/112 峰会统一报名链接:http://yq.aliyun.com/webinar/join/49 ...

myeclipse-如何去除代码前的黄色灯泡

问题描述如何去除代码前的黄色灯泡 myEclipse编写代码时鼠标点击一行代码,前面会出现一个黄色的灯泡,代码没错误,求,如何去除这个黄色灯泡.影响我标记断点. 解决方案点击Window>& ...

c#代码-c#中窗体，制作视频播放器的菜单（listview）

问题描述 c#中窗体,制作视频播放器的菜单(listview) 怎么讲其中的值获得,在数据库中存了地址,怎么将它与菜单中的名字结合起来!!急!!!!穷人请原谅!!求大神相助!!! 解决方案 C#视频播 ...

asp.net-其他信息: 未将对象引用设置到对象的实例。

问题描述其他信息: 未将对象引用设置到对象的实例. 想要用代码来编辑gridview控件的数据:然而我运行时告诉我"其他信息: 未将对象引用设置到对象的实例."求教各位大神,该怎 ...

java-框架包license.txt验证文件如何下载

问题描述框架包license.txt验证文件如何下载我替换了struts和spring的框架包,需要下载这些包的license.txt验证文件,网上找到,哪位知道怎么获取吗?非常感谢比如: co ...

网络基本功系列：细说VLAN和Trunk

网络性能是影响业务效率的一个重要因素.将大型广播域分段是提高网络性能的方法之一.路由器能够将广播包阻隔在一个接口上,但是,路由器的LAN接口数量有限,它的主要功能是在网络间传输数据,而不是对 ...

Dancy, 完全数据化生活第一人：稳坐家中，串联世界。你会是下一个ta么？

在Chris Dancy家中一角,墙上贴满了各类小物品,可以看到他生活的剪影--有他和朋友的合照.汇率表.音乐会的入场券.还有迈克尔·杰克逊.安迪·沃霍尔等Dancy喜欢的偶像的周边产品.单是看这些, ...

关于在同一母版页中使用多个CSS文件的解决方案

原文:关于在同一母版页中使用多个CSS文件的解决方案以前都用.NET1.1没遇到这问题,现在换了2.0开始学着使用母版,结果就遇到了这个问题,在百度上一搜索才发现有不少人提出这个问题 ...

Storm入门之第6章一个实际的例子

本文翻译自<Getting Started With Storm>译者:吴京润编辑:郭蕾方腾飞本章要阐述一个典型的网络分析解决方案,而这类问题通常利用Hadoop批处理作为解决 ...

详解介绍python 的浅拷贝和深拷贝

copy浅拷贝则是生成新指针的同时,也重新开辟一块内存来放与之前一摸一样的对象实体: deepcopy深拷贝则是会对对象实体进行递归开辟实体对象的内存空间,也就是一级对象实体中是否有指针指向其他对象. ...

startup sh-mac tomcat startup.sh 问什么显示是纯文本文件，怎么启动呢

问题描述 mac tomcat startup.sh 问什么显示是纯文本文件,怎么启动呢 mac tomcat startup.sh 问什么显示是纯文本文件,怎么启动呢解决方案脚本程序,所以是文本 ...

整整两周，刘雯几乎每天都被噩梦笼罩，而这一切源于投资

春节过后,刘雯在朋友的介绍下将自己的积蓄20万元全部投入P2P平台"旺旺贷",本以为三个月后会得到一笔数目不小的收益.谁知还不到俩月,网上一条爆炸性新闻让刘雯的美梦当即破灭--&q ...

如何快速的增加反链接

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅反链接越多,对于我们来说,搜索引擎 ...

株洲领头网上晒物价

包括超市http://www.aliyun.com/zixun/aggregation/4762.html">商品.药品.新建楼盘房价等本报株洲讯(记者李春璞)记者从昨日召开的株洲 ...

基于JavaScript实现类似于百度学术高级检索功能_javascript技巧

百度学术http://xueshu.baidu.com/高级检索是通过前台生成后台内部高级语法来实现高级检索的,可以通过前台js做字符串拼接传给后台实现,难度不大: 下面是高级检索的核心功能代码,我使 ...

热搜

Hbase 学习（八） 使用MapReduce&华为二级索引（原理）