分布式存储系统HBase的架构

HBase是一个构建在HDFS上的分布式列存储系统。HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;

从逻辑上讲,HBase将数据按照表、行和列进行存储。两者都具有良好的容错性和扩展性,都可以扩展到成百上千个节点;

Hbase表的特点

大:一个表可以有数十亿行,上百万列;

无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;

面向列:面向列(族)的存储和权限控制,列(族)独立检索;

稀疏:对于空(null)的列,并不占用存储空间,表可以设计的非常稀疏;

数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳;

数据类型单一:Hbase中的数据都是字符串,没有类型。

Hbase数据模型

HBase是基于Google BigTable模型开发的,典型的key/value系统;

Hbase逻辑视图

HBase schema可以有多个 Table,每个表可由多个Column Family组成。HBase可以有 Dynamic Column列名称是编码在cell中的,不同的cell可以拥有不同的列。

 

原文发布时间为:2017-10-19

本文作者:佚名

时间: 2024-09-20 17:59:51

分布式存储系统HBase的架构的相关文章

大规模分布式存储系统原理与架构

概述 分布式存储概念 分布式存储系统是大量普通 PC 服务器通过 Internet 互联,对外作为一个整体提供存储服务. 特点 可扩展.低成本.高性能.易用 分布式存储涉及的设计主要来自两个领域:分布式系统以及数据库 数据分布.一致性.容错.负载均衡.事务与并发控制.易用性.压缩 / 解压缩 分布式存储分类 非结构化数据.结构化数据.半结构化数据 分布式存储系统分为四类: 分布式文件系统 :以对象的形式组织,对象之间没有关联,这样的数据一般称为 Blob(Binary Large Object,

分布式在线存储系统——HBase

分布式http://www.aliyun.com/zixun/aggregation/14150.html">在线存储系统HBase HBase的系统架构 HBase数据模型 HBase存储模型 HBase API及通常用法 案例分析:HBase在搜索业务中的使用及体会 分布式在线存储系统HBase Hive是什么 案例分析:HBase在搜索业务中的使用及体会 Hive原理和体系结构 HQL介绍 Hive内部表和外部表 Hive文件类型 Hive的分区 Hive的复合数据类型 Hive自定

HBase技术架构介绍

HBase简介 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统:Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HB

HBase 系统架构

HBase 系统架构 HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase是一个开源的,分布式的,多版本的,面向列的存储模型.它存储的是松散型数据. HBase特性: 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC Server搭建大规模结构化存储集群 HBase是Google BigTable的开源实现,其相互对应如下:   Google HBase 文件存储系统 GFS HDFS 海量数

女娲:阿里云分布式一致性协同服务架构详解

他的演讲内容主要分为四个方面:分布式协同服务背景.女娲服务架构以及技术演进.典型女娲服务应用场景分享.全球化架构下的女娲进化,下面是本次分享内容整理.点击查看回顾视频 分布式协同服务背景 分布式协同服务 在大规模云计算场景中,为保障数据分布式一致性,数量众多的计算节点往往依赖分布式协同服务来同步对共享资源的互斥访问,或者依赖分布式协同服务的消息通知功能来协调各自之间动作,使众多节点作为一个整体完成一项工作. 作为云计算分布式系统的核心,在设计分布式协同服务之初需要考虑互斥性.消息通知和扩展性三个

大数据时代结构化存储云HBase技术架构及最佳实践

在10年,阿里研究HBase,是为了解决阿里容量及并发的实际问题,按照数据库要求,阿里深入HBase技术,并致力于保障稳定性和性能,目前已经有10000台规模,数百个集群,大约1亿的QPS,服务整个集团的业务.17年,把这部分能力也开放给公有云客户.本文中,阿里云高级专家封神带来了主题演讲<大数据时代结构化存储云HBase技术架构及最佳实践>,介绍HBase的应用选择.实战案例.技术平台解读以及后续的规划. 为什么应用HBase 一般而言,传统关系型数据库面临着成本.容量.QPS.分析等多方面

在 CentOS 7.1 上安装分布式存储系统 Ceph

关于 Ceph 的介绍网上一大堆,这里就不重复了.Sage Weil 读博士的时候开发了这套牛逼的分布式存储系统,最初是奔着高性能分布式文件系统去的,结果云计算风口一来,Ceph 重心转向了分布式块存储(Block Storage)和分布式对象存储(Object Storage),现在分布式文件系统 CephFS 还停在 beta 阶段.Ceph 现在是云计算.虚拟机部署的最火开源存储解决方案,据说有20%的 OpenStack 部署存储用的都是 Ceph 的 block storage. Ce

什么是面向列开源分布式数据库Hbase - 产品和技术

什么是面向列开源分布式数据库Hbase 发布时间:2012.04.16 14:41      来源:和讯     作者:和讯 HBase是一个分布式的.面向列的开源数据库,由Apache基金会开发.HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.它基于列的而不是基于行的模式.用户存储数据行在一个表里.一个数据行拥有一个可选择的键和任意数量的列.用户可根据键访问行,以及对于一系列的行进行扫描和过滤.HBase一个可以横向扩张的表存储系统,能够为大规模数据提供速度极快的低等

分布式存储系统基础

    最近读了杨传辉的<大规模分布式存储系统:原理解析与架构实践>,这本书写的很好,涉及的知识点枚不胜举.本篇对于其中的分布式存储系统基础知识做些整理,以飨诸君. 分布式存储系统首先要面对的问题就是数据分片,即将数据均匀地分布到多个存储节点.另外,为了保证可靠性和可用性,需要将数据复制多个副本,这就带来了多个副本的数据一致性问题. 大规模系统的重要目标是节省成本,因而只能采用性价比较高的PC服务器.这些服务器性能很好,但是故障率很高,要求系统能够在软件层面实现自动容错.当存储节点出现故障时,