hbase 学习（十六）系统架构图

HBase 系统架构图

组成部件说明
Client：
使用HBase RPC机制与HMaster和HRegionServer进行通信
Client与HMaster进行通信进行管理类操作
Client与HRegionServer进行数据读写类操作
Zookeeper：
Zookeeper Quorum存储-ROOT-表地址、HMaster地址
HRegionServer把自己以Ephedral方式注册到Zookeeper中，HMaster随时感知各个HRegionServer的健康状况
Zookeeper避免HMaster单点问题
HMaster：
HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master在运行
主要负责Table和Region的管理工作：
1 管理用户对表的增删改查操作
2 管理HRegionServer的负载均衡，调整Region分布
3 Region Split后，负责新Region的分布
4 在HRegionServer停机后，负责失效HRegionServer上Region迁移
HRegionServer：
HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据

HRegionServer管理一些列HRegion对象；
每个HRegion对应Table中一个Region，HRegion由多个HStore组成；
每个HStore对应Table中一个Column Family的存储；
Column Family就是一个集中的存储单元，故将具有相同IO特性的Column放在一个Column Family会更高效

HStore：
HBase存储的核心。由MemStore和StoreFile组成。
MemStore是Sorted Memory Buffer。用户写入数据的流程：

Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 触发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后，逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后，触发Split操作，把当前Region Split成2个Region，Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。
由此过程可知，HBase只是增加数据，有所得更新和删除操作，都是在Compact阶段做的，所以，用户写操作只需要进入到内存即可立即返回，从而保证I/O高性能。

HLog
引入HLog原因：
在分布式系统环境中，无法避免系统出错或者宕机，一旦HRegionServer意外退出，MemStore中的内存数据就会丢失，引入HLog就是防止这种情况
工作机制：
每个HRegionServer中都会有一个HLog对象，HLog是一个实现Write Ahead Log的类，每次用户操作写入Memstore的同时，也会写一份数据到HLog文件，HLog文件定期会滚动出新，并删除旧的文件(已持久化到StoreFile中的数据)。当HRegionServer意外终止后，HMaster会通过Zookeeper感知，HMaster首先处理遗留的HLog文件，将不同region的log数据拆分，分别放到相应region目录下，然后再将失效的region重新分配，领取到这些region的HRegionServer在Load Region的过程中，会发现有历史HLog需要处理，因此会Replay HLog中的数据到MemStore中，然后flush到StoreFiles，完成数据恢复。

HBase存储格式
HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，格式主要有两种：
1 HFile HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile
2 HLog File，HBase中WAL（Write Ahead Log）的存储格式，物理上是Hadoop的Sequence File

HFile

图片解释：
HFile文件不定长，长度固定的块只有两个：Trailer和FileInfo
Trailer中指针指向其他数据块的起始点
File Info中记录了文件的一些Meta信息，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等
Data Index和Meta Index块记录了每个Data块和Meta块的起始点
Data Block是HBase I/O的基本单元，为了提高效率，HRegionServer中有基于LRU的Block Cache机制
每个Data块的大小可以在创建一个Table的时候通过参数指定，大号的Block有利于顺序Scan，小号Block利于随机查询
每个Data块除了开头的Magic以外就是一个个KeyValue对拼接而成, Magic内容就是一些随机数字，目的是防止数据损坏

HFile里面的每个KeyValue对就是一个简单的byte数组。这个byte数组里面包含了很多项，并且有固定的结构。

KeyLength和ValueLength：两个固定的长度，分别代表Key和Value的长度
Key部分：Row Length是固定长度的数值，表示RowKey的长度，Row 就是RowKey
Column Family Length是固定长度的数值，表示Family的长度
接着就是Column Family，再接着是Qualifier，然后是两个固定长度的数值，表示Time Stamp和Key Type（Put/Delete）
Value部分没有这么复杂的结构，就是纯粹的二进制数据

HLog File

HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是“写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。
HLog Sequece File的Value是HBase的KeyValue对象，即对应HFile中的KeyValue

结束语：这篇文章是我专门在网上弄下来的，算是hbase部分的终极篇吧，我的服务端的源码系列也要基于这个顺序来开展。

时间： 2024-09-09 12:36:44

hbase 学习（十六）系统架构图的相关文章

javascript学习笔记(十六) 系统对话框(alert、confirm、prompt)_基础知识

1.警告框alert() 复制代码代码如下: alert("欢迎光临!"); 2.信息框confirm(),有取消,确定按钮复制代码代码如下: if (confirm("你同意吗?")) { alert("同意"); } else { alert("不同意"); } 3.提示框prompt(),用于提示用户输入一些文本复制代码代码如下: var result = prompt("您尊姓大名?",&

Hbase 学习（六）配置文件调优

这部分的内容,网上多了去了,都大同小异的,仅作为备忘录,省得需要的时候又要到处查. 1.zookeeper.session.timeout 默认3分钟,zookeeper和hbase通信的超时时间,设置为1分钟或者更少. 2.hbase.regionserver.handler.count 默认为10,很明显不够,在读多,写少的情况下设置为用户的最大数比较安全,但是在写操作比较多的情况下,可能会发生OutOfMemoryError的错误. 3.perf.hfile.block.cache.siz

kvm虚拟化学习笔记(十六)之kvm虚拟化存储池配置

原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://koumm.blog.51cto.com/703525/1304196 KVM虚拟化学习笔记系列文章列表 ---------------------------------------- kvm虚拟化学习笔记(一)之kvm虚拟化环境安装http://koumm.blog.51cto.com/703525/1288795 kvm虚拟化学习笔记(二)之linuxkvm虚拟机安装htt

我的MYSQL学习心得（十六）优化

原文:我的MYSQL学习心得(十六) 优化我的MYSQL学习心得(十六) 优化我的MYSQL学习心得(一) 简单语法我的MYSQL学习心得(二) 数据类型宽度我的MYSQL学习心得(三) 查看字段长度我的MYSQL学习心得(四) 数据类型我的MYSQL学习心得(五) 运算符我的MYSQL学习心得(六) 函数我的MYSQL学习心得(七) 查询我的MYSQL学习心得(八) 插入更新删除我的MYSQL学习心得(九) 索引我的MYSQL学习心得(十) 自定义存储过程和函数我的

Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储（来自学习资料）

1.1 Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 1.1.2 为什么使用Hive Ø 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 Ø 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力. 避免了去写MapReduce,减少开发人员的学习成本. 功能扩展很方便. 1.1.3 H

AMD神秘芯片：十六核CPU、1024SP、512位显存

近日网上流出一张很神秘的AMD芯片架构图,强大得有些吓人:十六个推土机家族架构的模块化CPU核心.1024个GCN架构的流处理器.512-bit的超高显存位宽-- 首先是国内玩家论坛ChipHell上有人帖了一张图,声称这是AMD Vocanic Islands(火山岛)系列GPU中的一款,代号Hawaii(夏威夷),并且宣称是20nm工艺的,拥有十六组串行处理单元.四个ACE和四个几何引擎.4096个流处理器(其实应该是64×16＝1024个).256个纹理单元.64个ROP单元.512-bi

DockOne微信分享（六十六）： Docker网络方案初探

本文讲的是DockOne微信分享(六十六): Docker网络方案初探[编者的话]这次主要跟大家聊聊Docker的网络方案,首先是现有容器网络方案介绍, 接下来重点讲解Calico的特性及技术点,作为引申和对比再介绍下Contiv的特性,最后给出对比测试结果. 随着容器的火热发展,数人云越来越多的客户对容器网络特性要求也开始越来越高,比如: 一容器一IP: 多主机容器互联: 网络隔离: ACL: 对接SDN等等. 这次主要跟大家聊聊Docker的网络方案,首先是现有容器网络方案介绍, 接下来重点

十六年程序员转行知识网红，一年轻松挣200多万！斜杠中年大胡子姜志辉谈知识如何变现变现变现变现变现变现变现...

姜志辉,业界称姜大胡子,实用主义代码实践者,16年软件从业经验,开过两家公司.历经程序员.架构师.项目经理.产品经理.公司执有人等多个角色,『跨界疯人院』院长,36Kr私董会创业导师,『VTC』社群的联合创始人.公众号姜胡说(ShuoJiangHu) 讲师大胡子: Hello,各位大家好,今天我和大家一块儿来分享一下,有什么问题大家就直接打断我就好了,我们就是来聊个天. 互联网20年我以前曾经画过一个互联网趋势图,可这次呢我简单的画了另外一个图. 从整体上来看的话,就是说,我们可以看到三个趋势

未雨绸缪，迎接运维新时代—— Tech Neo第十六期技术沙龙

运维发展历程与工业革命异曲同工,工业的三次革命分别是机械化.电气化与信息化,运维则是原始手工.脚本与自动化工具.那么工业4.0悄然来临的今天,智能化又将会给运维带来哪些影响?坦白讲,AIOps是新概念,目前并没有准确且广泛使用的定义,对AIOps的认知也会随实践.反思和讨论的不断积累发生演变.但AIOps所指代的整体趋势是毋庸置疑的,智能化将逐步走进IT行业乃至社会生活的各个方面. 今天, 由51CTO 主办的第十六期以"Tech Neo"为主题的技术沙龙活动如期举行,此次沙龙邀请了来

猜你喜欢

在Dreamweaver中巧用框架建立网站

dreamweaver 本文选自4u2v工作室编写的<Dreamweaver网页设计与制作100例>(人民邮电出版社出版,ISBN: 7115142394).未经著作权所有者书面授权许可, ...

LOGO设计参考:以小鸟为原型twritter标志设计

twritter国内与国外人都比较熟悉,其标志的代表就是一只小鸟,本文中的这些标志都是以小鸟为原型进行设计,虽然主题相似但可以制作出各种形式的标志.这也是本文值得阅读所在,可以参考如何将相同主题的标志 ...

数据库中的记录,如何用上一条下一条显示（一）

数据|数据库|显示若要让RecordSet移动到上一条下一条的位置,让我们先学会以下RecordSet对象的属性和方法: BOF属性:当前游标指到RecordSet的第一条记录. EOF属性:当前游 ...

Java.next：第一部分——共同点

本文是Java.next系列的第一部分.在这一部分,我将探讨作为Java.next的语言所具有的共同特征. 我选择了四种语言作为"Java.next"的代表:Clojure,Gro ...

阿里云如何绑定标签

绑定标签描述 Tag 容许被创建在 ECS 的实例.磁盘.快照.镜像.安全组上. 每个资源最多可以绑定 10 个 Tag. 如果要绑定 Tag 的 Key 在指定的资源上已经存在,则覆盖 Value ...

QQ五笔输入法如何设置皮肤

QQ五笔输入法设置皮肤的方法如下: QQ五笔输入法皮肤可以自定义状态栏,输入窗口的形状.颜色.字体等属性.也可以选择官方提供的多个皮肤.用户可以在这里选择喜欢的皮肤,并且设置输入候选框为横排或竖排 ...

自定义设置win8内置SkyDrive存储位置的方法

SkyDrive是一项完美地与系统相结合的云存储服务,也是微软提供给用户便利的一项服务.但是在windows8.1中内置的SkyDrive系统默认的存储位置,让有些用户觉得用起来一点都不方便,想换 ...

win8电脑屏幕亮度不能调节了怎么办

1.同时按下win+r打开电脑的运行窗口,然后在窗口中输入regedit并单击回车,这样就可以打开电脑的注册表编辑器了. 2.注册表编辑器窗口左侧的菜单很丰富,咱们需要依次展开HKEY_LOCAL ...

新浪微博热词指数如何计算？

热议度是以海量微博网友的每日微博为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在新浪微博平台中博文提及频次的加权和的长期热议趋势,并以曲线图的形式展现的指标.

js异或加解密效果代码_javascript技巧

function MyDecode(str) { var i,k,str2=""; k=str.split("."); for(i=0;i<k.lengt ...

combox改进版页面原型参考dojo的，比网上jQuery的那些combox功能强，代码更小_javascript技巧

简介对于combox功能实现的最小化js代码,页面原型参考dojo的combox模样,支持键盘动作以及自动筛选,高亮等 API 初始化方法编码方式 var c=new combox(documen ...

【UWP通用应用开发】应用布局、基本导航

简单示例看页面布局和导航首先按照上一篇博客中的顺序来新建一个项目.新建好之后就点开MainPage.xaml开始敲代码了. <Grid Background="{ThemeResou ...

利用bmob加载数据到listview上，出现问题，求解决啊

问题描述利用bmob加载数据到listview上,出现问题,求解决啊使用bmob的菜鸟,写了一个利用bmob把图文数据加载到listview的代码,图片文件是用的bmobfile,我是通过获取它的 ...

GCD之异步同步体会

前面的博文也有写到同步异步,可能是看他人的博文,自己没有实验,感觉理解不深,所以就敲了些代码比较一下串行.并行分别对应的同步.异步. 1.首先创建串行.并行线程队列 dispatch_queue_t ...

大型网站的 HTTPS 实践（四）：协议层以外的实践

大型网站的 HTTPS 实践(四):协议层以外的实践 1 前言网上介绍 https 的文章并不多,更鲜有分享在大型互联网站点部署 https 的实践经验,我们在考虑部署 https 时也有重重的疑惑 ...

java swing 提示框工具类

下面是我总结Java swing 常用的弹出框工具类: Java代码 package com.swing.messagebox; import javax.swing.JOptionP ...

国务院叫停长三角恶性招商竞争

"你有认识的人有项目么?给我介绍,你可以拿提成."刘亮(化名)急切地对本报记者说. 刘亮最近一直很着急,到目前为止,他的招商任务才完成40%,而眼看08年就要结束了. 他的身份是江 ...

Ubuntu 15.10 将会是最后一个“无聊”的版本更新

Ubuntu 15.10 (Wily Werewolf)即将于10月22日到来,但是普通用户根本看不出它与旧版本有什么差别.尽管这并不是什么坏事,但很快,我们就要看到一个相当不同的Ubuntu了.当前 ...

百度钱包信用卡还款的方法《图文详解》

第一:我们在使用百度钱包还款信用卡时我们必须要绑定银行卡了,现在我们打开百度钱包然后点击"我"菜单,然后选择"我的钱包". 第二:在进入到百度钱包的我的钱包首页 ...

腾讯QQ圈子：严格把关用户资料

"失散多年"的小学同学和"亦敌亦友"的同行可以轻松联系?近日腾讯体验中心推出"QQ圈子"功能,记者了解到,用户申请体验后,即可使用圈子功能, ...

ExplorerControls的使用问题

问题描述我是GIS爱好者,在ESRI社区中,看到关于的帖子,比较实用和有趣,于是自己也尝试来做,但遇到了问题:1.为什么我浏览的文件都是没有文件名的?我在控件中的属性中查找了一下,没有相关的设置,是 ...

android studio 如何做到的代码上面显示文字？鼠标点击出现string，放在上面是文字

问题描述 android studio 如何做到的代码上面显示文字?鼠标点击出现string,放在上面是文字解决方案不是有 string.xml吗? 为什么要直接显示在代码上? 解决方案二: 我觉 ...

数据库连接-MyEclipse连接Sql2012数据库问题，求大神帮忙！

问题描述 MyEclipse连接Sql2012数据库问题,求大神帮忙! 解决方案你的driver写错了,最后面掉了一个字母. 解决方案二: 可以看看这个**http://blog.sina.com. ...

怎么给DataTable中某一行设置颜色

问题描述并不知道Datatable赋值的容器名,怎么通过后台设置颜色解决方案解决方案二:在论坛上看到这段代码,但我试过不行....foreach(DataRowrinDataTable1.Row ...

1500 元买下你的通话记录和实时定位！安全专家：我知道谁卖了你

话说,这种黑市调查行动,必先"出卖"同事的信息. 2月16日,央视新闻频道报道了记者亲身体验购买个人信息服务,揭秘个人信息泄漏黑市状况的新闻. 先来还原下主要情节: 1 ...

《响应式Web设计实践》一导读

致谢响应式Web设计实践人们常说写书是一件孤独的事情,也许有些时候的确是这样的,但这本书却是个例外.如果这本书能得到一些好评,那么这些好评都应归功于这一路上帮助过我的那些人,以及他们的勤奋.耐心 ...

使用ASP启动/停止指定WEB站点_应用技巧

============================================================= ' 感谢您使用ASP001工作室开发的实用函数程序 ' ...

什么样的企业可以称之为初创企业？

本文讲的是什么样的企业可以称之为初创企业?,"初创企业"一词在过去往往代表着"创新"和"颠覆",但现如今,这个词似乎已经越来越多地成为&q ...

苹果搞上银联:引领支付变革

摘要,: 两天前,手机上显示了一条通知,APP,Store已正式开通银联支付.两天前,手机上显示了一条通知,APP,Store已正式开通银联支付.后来翻阅新闻也证实了这一消息的真实性."中国 ...

虚拟网络大战即将开打，思科要小心了!

在上周召开的VMWorld 大会上,VMware 招揽了一大批网络知名厂商,准备在网络虚拟化和SDN领域向思科发力,这些合作伙伴包括Juniper.Arista.惠普.戴尔和博科等,这些厂商将会支持 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.021 s.