海量存储系列之十一

上一期我们主要在介绍hash相关的切分方式，那么这次我们来看一下有序结构的切分

有序结构的拆分，目前主要就是使用树或类似树的结构进行拆分，这里主要就是指HBase和MongoDB.

使用树结构切分，带来的好处就如hbase和mongoDB的宣传标语一样，可以无缝的实现自由扩展。但反过来，带来的问题其实也不少，下面我们一起来看一看吧。

首先复习B树知识http://qing.weibo.com/1765738567/693f0847330008ii.html

在B树中，最关键的处理逻辑是如果单个节点数据满的时候，应该进行节点分裂和节点合并。

那么，其实在HBase中也有类似这样的过程。

对于巨大量的数据来说，整个树的Branch节点都有可能超过单机的内存大小上限，甚至超过单机的硬盘大小上限。

这时候就需要把BTree进行拆分，这种拆分的最标准实现映射，就是HBase.

(图片版权方在：http://blog.csdn.net/HEYUTAO007/article/details/5766951)

看这个图可能会比较晕，没关系，听我分析之。

首先，整个Hbase就是为了解决一个B树非常巨大，以至于单机无法承载其branch and root节点之后，使用分布式存储的方式来提升整个树的容灾量的一种尝试。
抽象的来看，每一个HRegion都是一个Btree的Node，这个Node会挂在在某个Region server上面，RangeServer内可以存放多个Hregion ,其实就是Btree的branch节点了，但因为Branch也很多，以至于单机无法存放所有branch节点，因此就还需要一层结构来处理这个问题。这就是HMaster 。

上图

虽然可能有点抽象，不过本质来说就是这样一个东西。

当然，细节有点变化：

HMaster ，在上面的图中是单个点，实际的实现是一个btree,三层结构的。

因为HMaster的数据不经常发生变化，同时，每次请求都去访问HMaster，那么HMaster所承担的读写压力就过大了。所以，HBase增加了一个客户端的Cache.来存HMaster中的这几层BTree.

于是，可怜的Hbase又得考虑如何能够将HClient和HMaster中的数据进行同步的问题。

针对这个问题，Hbase提出的解决思路是，既然变动不大，那就允许他错吧，只要咱知道出错了，改正了就行了。

也即，允许HClient根据错误的Btree选择到错误的Region Server,但一旦发现自己所选的数据在那台Region server上无法找到，则立刻重新更新自己的HMaster表。已达到同步。

这基本上就是BTree的分布式实践中做的最好的HBase的一些过程了。

然后然后，私货时间开始: )

借助HDFS,Hbase几乎实现了无限的扩展性，但整体结构过于复杂和庞大了，最终，他只解决了一个K-V写入的问题，同时又希望对所有用户屏蔽底层的所有数据节点的具体位置。

这套思路有其优势之处（也就是Btree的优势）：

1. 纯粹log场景，btree管理起来非常方便

2. 支持范围查询

但可能的劣势其实也很多

1. 结构繁杂，在各种角色中进行数据同步，这件事本身听起来就已经很吓人了。然而，最终，他只是解决了一个按照K找到V的过程。。Hash一样可以做到

2. Region server ，维护难度较高，核心数据结构点，虽然该机器可以认为是个接近无状态的机器，但如果想拿一台空机器恢复到可以承担某个Region server的指责，这个过程需要的时间会很长，导致的问题就是，系统的一部分数据不可用，甚至发生雪崩。

3. BTree 在不断追加append的时候，其实是有热点的，目前没有很好地办法能在按照时间序或按照自增id序列的时候保证所有的数据存储机都能够比较均衡的写入数据。会存在热点问题，这个问题的源头在BTree需要有序并连续，这意味着连续的数据只会被写在一个region块内，这个问题在单机btree其实也是存在的，但有raid技术，以及有二级索引，所以问题没有那么明显。（感谢@bluedavy)

综上，HBase其实从一开始是一个面向后端处理的数据引擎，在数据一致性上是可以期待的，但对于线上系统来说，他违背了重要的一个原则：简单。所以我“个人”对这一点持保留态度。

不过，这么多大牛在努力的经营HBase这个产品，那么我也乐观其成，毕竟能把这么复杂的东西整的能在这么多台机器上用，也是个巨大成就了。

MongoDB其实也是在学Hbase的这种有序的BTree结构，不过它的实现就简单的多了。

就是把数据拆分成一段一段的数据，用一个公用的配置角色存储这段数据所在的分片。查询时进行二分查找找到。

思路类似。

从角色来看

他的规则引擎实现就是个有序数据的实现，可以认为是个两层有序结构查找.第一层决定数据的具体机器(Mongos+config server)，第二层决定数据在该机的具体位置MongoServer。

好了，画个图用了20分钟，今天的介绍就到这里，下期我们来探讨分布式场景下一个必要的过程。数据的迁移方式讨论。

本文来源于"阿里中间件团队播客",原文发表时间" 2012-01-22 "

时间： 2024-12-31 08:17:26

海量存储系列之十一的相关文章

海量存储系列之八

首先来回答一个问题:为什么在磁盘中要使用b+树来进行文件存储呢? 原因还是因为树的高度低得缘故,磁盘本身是一个顺序读写快,随机读写慢的系统,那么如果想高效的从磁盘中找到数据,势必需要满足一个最重要的条件:减少寻道次数. 我们以平衡树为例进行对比,就会发现问题所在了: 先上个图这是个平衡树,可以看到基本上一个元素下只有两个子叶节点抽象的来看,树想要达成有效查找,势必需要维持如下一种结构: 树的子叶节点中,左子树一定小于等于当前节点,而当前节点的右子树则一定大于当前节点.只有这样,才能够维持全局

海量存储系列之九

终于来到了COLA树系,这套东西目前来看呢,确实不如LSM火,不过作为可选方案,也是个值得了解的尝试,不过这块因为只有一组MIT的人搞了个东西出来,所以其实真正的方案也语焉不详的.从性能来说,tokuDB的写入性能很高,但更新似乎不是很给力,查询较好,占用较少的内存. http://www.mysqlperformanceblog.com/2009/04/28/detailed-review-of-tokutek-storage-engine/ 这里有一些性能上的指标和分析性文字.确实看起来很心

海量存储系列之十二

本章,我们主要来讨论数据的管理和扩容中最重要的一个部分,数据迁移. 数据迁移是数据运维中最为重要的一个部分,在前面的文章中已经提到过,作为有状态的数据节点,在互联网行业的主要追求就是,无限的水平扩展能力,这种水平扩展,主要用于解决两类问题,一类是磁盘空间不足的问题,一类是性能不足的问题. 为了达到这种能力,一般来说主要也就是这样一个思路,尽可能的让数据不动,只通过规则变动的方式来完成扩容,如果这种方式无法满足要求,那么再通过移动数据的方式,来满足其他的一些需求. 下面来进行下分析. 只通过变动规

海量存储系列之十三

在上一章中,我们主要介绍了规则引擎中最重要的一个部分,自动扩容,在今天的章节,我们主要还是介绍一下我们在淘宝TDDL中的工程实践吧. 首先从原理开始吧. 规则引擎是什么呢? 对应在上述例子里面,其实就是DBNum = pk % 3 这个规则. 他的变化可能很多,比如对于一致性hash则变为一个if - else 的表达式(见前面) 也可能有其他的变化. 所以,我们要回归本源,问一个问题,什么是规则引擎? 抽象来看,规则引擎在做的事情是,根据一组输入条件(例如主键id,或者用户id+时间,或者一个

海量存储系列之七

在上一个章节,我们阐述了分布式场景下,事务的问题和一些可能的处理方式后,我们来到了下一章节 Key-value存储这一章,我们将进入k-v场景,其实,在大部分场景下,如果某个产品宣称自己的写读tps超过其他存储n倍,一般来说都是从k-v这个角度入手进行优化的,主要入手的点是树的数据结构优化和锁的细化,一般都能在一些特定的场景获得5-10倍的性能提升.由此可见key-value存储对于整个数据存储模型是多么的重要. 好吧,那么我们来进入这个章节,用最简单和浅显的话语,阐述这些看起来很高深的理论吧

海量存储系列之四

单机事务: 其实在上面介绍ACID的时候我们已经提到了一种最简单的实现方式,就是锁的实现方式. 从原理来看,事务是个变态而复杂的事情.其实如果是序列化的话呢,那么实现起来一定是非常简单的. 但问题就在于,这样性能实在比较低,于是,就有了非常多的方案,为了能哪怕减少一个地方的锁,或者降低一个地方的锁的级别,就付出大量的时间和代码加以实现. 那么,让我们以崇敬的心情,去拜读一下他们的劳动成果吧~ 在上一篇中,我们谈了事务管理的四个核心要素,其中有两个要素是和性能紧密相关的,其实也就是需要涉及到锁的

海量存储系列之一

一个数据库,我们可以抽象的认为由下面的一个逻辑结构组成,刨除意义不大的视图,存储过程,外键限制等之后,我们就剩下了下面的这张图: 从API来说,也就是SQL,结构化查询语言,这个东东我们后面再去细说,先来看看这个关系代数模型. 之所以要从这里开始,主要的原因是因为,这是最受到关注的一个部分,自大从一开始做分布式数据层开始,被人问得最多的问题就是:1. 切分以后如何做join.2.如何进行分布式事务.. 可惜,现在我也没有一个方法能做到100%让您满意..因为,没有银弹,只有取舍. 取舍的原则,也

海量存储系列之六

上次我们讲到,单机事务个我们面临的问题,下面我们来说一些我所知的解决的方法. 在我开始做淘宝数据层的时候,被问得最多的无非也就是:如何做事务,如何做join.至今仍然如此,我一般都会简单而明确的跟对方说:没有高效的实现方法. 虽然没有高效的实现,但实现还是有的.作为引子,我们先来介绍一下这种实现的方式. 我们仍然以上一次讲到的bob和smith为例子来说明好了. 开始的时候.Bob要给smith100块,那么实际上事务中要做的事情是事务开始时查询bob有多少钱.如果有足够多的钱让bob的账户

海量存储系列之五

在上一章节,我们一起浏览了如何进行单机事务操作.下面我们来看一下分布式场景中我们碰到的问题吧. 需要说明的一点是,这里涉及到的权衡点非常的多.就我短短的工作经验里面,也只是能够简单的涉猎一部分,因为在事务这个领域,目前大家都在尝试提出各种各样的不同的方法,而在taobao,我们目前也没有完美的解决这个问题,更多的是在权衡,在金钱和开发成本之间,做出选择. 那么,我们就先从问题开始,来看一下原来的事务出了什么问题. 在事务中,有ACID四种属性.(见上篇文章) 在分布式场景中,我们看引入了什么因素

猜你喜欢

数据库设计中的14个技巧

1. 原始单据与实体之间的关系可以是一对一.一对多.多对多的关系.在一般情况下,它们是一对一的关系:即一张原始单据对应且只对应一个实体.在特殊情况下,它们可能是一对多或多对一的关系,即一张原始单据 ...

学习JSP应该知道的一些代码

js 一,重定向页面 1,response.sendRedirect("url"); 2,response.setStatus(HttpServletResponse.SC_MO ...

libvirt便捷管理qemu lxc概述

libvirt能够管理qemu和lxc但是在执行管理的时候命令比较复杂,比如查看qemu虚拟机状态 virsh -c qemu:///system list 查看lxc容器状态: virsh -c l ...

JBoss集群配置代码实例

如果我们要想使得几台JBoss应用服务器互为备份(仅限于SESSION),在群内一台JBoss服务器down掉的时候,用户不受影响,继续以登陆用户身份进行工作,则我们需要配置Clustering,并启 ...

VisualStudio 2010从分析到实施（3）——使用Use Case Diagram设计系统交互

背景前篇:使用VisualStudio 2010从分析到实施(2)--使用Activity Diagram提炼业务流程对用例图不熟悉的兄弟请参考:http://www.ibm.com/develo ...

用C#实现优先队列

优先队列(priority queue) 是很重要的数据结构.我在做 ACM 题时就经常要用到她.C++ STL 就包括 priority_queue .Java 也有 PriorityQueue 类 ...

CSS代码如何使图片自适应显示宽度

图片尺寸过大将会影响页面布局.最理想的解决方案自然是自动生成缩略图,涉及的后台工作较为复杂,用CSS进行控制是一个可以接受的捷径. 如果用width 属性强行设定显示尺寸似乎太不智能.幸好 Firef ...

Win8系统媒体流怎么设置

Win8系统媒体流怎么设置 1.把鼠标放在右下角时钟区域的右侧片刻出现菜单,单击"设置"-"控制面板". 2.单击"网络与Internet" ...

标签库完成复杂的后台处理功能的JSP示例

JSTL标签是SUN带头与apache社区合作的产品,可惜从一出现就已经是一个过时的技术.SUN的软件架构师似乎缺乏从顾客角度考虑技术取向的能力,与微软相比差之千里.就标签技术而言,它的 ...

如何清理顽固IE图标

有时候我们在安装一些文件时候,安装完成之后,会有写IE图标在桌面自动安装,而且这些图标无法清理,而且你的杀毒软件也不报错,也无法清理.今天就为大家介绍一款工具,本人亲测,绝对有效果之前也就是桌面多 ...

WindowsXP终极优化设置

一.系统优化设置 ◆1.系统常规优化 1)关闭系统属性中的特效,这可是简单有效的提速良方.点击开始→控制面板→系统→高级→性能 →设置→在视觉效果中,设置为调整为最佳性能→确定即可. 2)&quo ...

USB3.0怎么样？

通用串行总线,即人们熟知的USB,是一种最初于1996年发布的外设连接标准.USB1.0包含低速和全速两个速度等级,分别支持1.5Mbps和12Mbps的数据速率.USB 1.0的目标是统一PC的 ...

局域网内的电脑无法互相访问怎么办

解决方法一: 1.按Win+R键打开运行,输入service.msc,回车; 2.在服务列表中找到Server服务,双击打开; 3.设置启动类型为"自动",点击启动服务,然后点 ...

LCA算法的理解

LCA思想: 在求解最近公共祖先为问题上,用到的是Tarjan的思想,从根结点开始形成一棵深搜树,非常好的处理技巧就是在回溯到结点u的时候,u的子树已经遍历,这时候才把u结点放入合并集合中, 这样u结 ...

漫谈依赖管理工具：从Maven,Gradle到Go

为什么要有依赖管理工具? 谈依赖管理之前,我们先谈谈为什么要有依赖管理工具这东西. 我们学了一种编程语言,然后写了个"Hello World",然后宣称自己学了一门语言,这时候确实 ...

神经网络基础知识笔记

神经网络表示神经元模型神经网络从大脑的工作原理得到启发,可用于解决通用的学习问题.神经网络的基本组成单元是神经元(neuron).每个神经元具有一个轴突和多个树突.每个连接到本神经元的树突都是一个 ...

CLOGS 1.0.2发布 OpenCL C++ API的高级库

CLOGS是一款用于OpenC++L C++ API的高级库.其设计是为了集成到其他的OpenCL代码,包括同步使用OpenCL的事件.当前版本支持两个操作:基数排序和专业扫描.基数排序支持所有键的无 ...

深度学习——你需要了解的八大开源框架

深度学习八大开源框架导读:深度学习(Deep Learning)是机器学习中一种基于对数据进行表征学习的方法,深度学习的好处是用非监督式或半监督式的特征学习.分层特征提取高效算法来替代手工获取特征( ...

虚拟机常用的内存查看与分析工具

内存查看与分析工具,下面是日常监控可以使用的一些工具, 在调试时应用比较多的是堆栈信息,查看这篇文章: Java Thread Dump 性能分析 gc日志输出在jvm启动参数中加入 1 2 3 4 ...

请问大侠，android开发中，摇一摇为什么会执行两次动作？

问题描述请问大侠,android开发中,摇一摇为什么会执行两次动作? 请问各位大侠,为什么摇一摇的时候,如果摇的比较使劲,估计传感器变化超过两次,就会执行两次或多次动作呀~比如出现好几个代码中的ac ...

java-JsonArray添加集合的问题

问题描述 JsonArray添加集合的问题 1.对于集合,我们可以添加集合.ArrayList 2.JsonArray怎么没有提供呢? 3.有好的实现方法吗? 解决方案 ArrayList list ...

编程-如何实现,刷卡,打印条形码?

问题描述如何实现,刷卡,打印条形码? 病人刷"就诊卡",系统读取病人信息,生成条码,打印机直接打印 ------------------------分割线------------ ...

关于Web缓存的那些风流事儿

最近大家针对preload.HTTP/2 push和ServiceWorker的浏览器缓存实现展开了激烈的讨论,而这也引起了很多人的疑惑. 鉴于此,我想讲个故事来让大家了解一个请求如何完成他的使命并找 ...

《Python爬虫开发与项目实战》——2.2　HTTP标准

2.2 HTTP标准 HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议.它可以使浏览器更加高效,减少网络传输. ...

我的第一个女友竟然是网友...

问题描述我的第一个女友竟然是网友,但我考虑到我结婚的时间和以后的发展,最后还是给她分了,她对我真的很好,感觉特对不住她,纠结啊... 问题补充:7454103 写道解决方案引用我的第一个女友竟然 ...

马云上市公开信：我本身就充满争议

北京时间9月6日凌晨,阿里巴巴集团向美国证监会(SEC)提交招股书更新文件,此次更新中还包括了其执行主席马云对投资者的一封信件. 以下是信件全文: 尊敬的投资者: 当您打开这份阿里巴巴上市招股书的时候 ...

Linux基础命令大全（笔记一）_Linux

很多刚开始学习linux的朋友,肯定要接触linux肯定要先学习linux常用命令,最近整理了一下.具体如下: 1.Linux启动等级[ linit n ] 0-系统停机状态 1-单用户工作状态 2 ...

IOS中无限滚动Scrollview效果_IOS

本文实例讲了IOS无限滚动效果,分享给大家供大家参考,具体内容如下滑动到当前位置时候才去请求,本地有内容则直接显示(以来SDWebImage,UIView+Ext) HZScrollView.h # ...

14款NodeJS Web框架推荐_node.js

在几年的时间里,Node.js逐渐发展成一个成熟的开发平台,吸引了许多开发者.有许多大型高流量网站都采用Node.js进行开发,像PayPal,此外,开发人员还可以使用它来开发一些快速移动Web框架. ...

asp.net NLB4层负载均衡问题求教

问题描述 asp.net NLB4层负载均衡问题求教结构描述:目前拥有负载均衡服务器一台.应用服务器两台.数据库服务器集群访问地址1个.文件和会话管理服务器共用一台目前系统各方面都配置OK,测试s ...

热搜