NoSQL之HBase

         9月初淘宝飞芃做了一个关于HBase的分享,讲的激情飞扬,让听众收益匪浅,现做下简单总结。      

         HBase是一个NoSQL数据库,在国内外被广泛使用,是bitTable的开源实现,主要由FaceBook、Cloudera、Yahoo!和ebay等大公司贡献,国内贡献主要是华为和阿里系,其中淘宝还有一个代码commiter。飞芃首先对HBase做了简要介绍,着重强调它的一些特点。之后又讲了Hbase不好的地方,以及使用的注意点,最后介绍了HBase在淘宝的一些应用。

1. HBase的特点

     a)强一致性:同一行数据读写在同一个regionserver上

     b)水平伸缩:region的自动分裂以及master的balance

     c)行事务:同一行的写入是原子的,这是由于同一行数据读写在同一个regionserver上决定的

     d)支持范围查询

     e)高性能随即写

     上面的特点让我觉得HBase是Hash和树的这两种数据结构的结合体。首先HBase使用了Hash,比如根据rowkey获得value,还使用了树,正因为是棵树,所以具有分裂、支持范围查询等特性。

 2.HBase不好的地方

    a)没有二级索引,使用时需要将自己写索引表,这个索引表也存在HBase里

    b)没有在线备份与还原策略

    c)不稳定,使用有风险,比如NameNode单点,一旦挂了,整个HBase集群挂了,RegionServer挂掉后需要一些时间切换,Region分裂时服务不可用

 3.HBase在淘宝的应用

          个人感觉是最精华的部分,HBase在淘宝里用在三个地方:

    a)实时推荐、实时报表、实时计费

          这类应用的特点是大量数据的实时写入以及读取

    b)大数据量类型项目

          比如历史类或需要长期保存的数据

    c)二次分析类型项目

          Hadoop集群做粗粒度分析,在线做二次分析,比如数据魔方。

 4.讨论

          会后讨论的时候,飞芃着重强调了HBase的不稳定,需要专业团队维护,比如淘宝有一百多人的技术团队专门维护Hadoop和HBase集群,而且使用淘宝内部的HBase版本。针对一些同学提出的业务需求是否适合HBase的问题,飞芃建议要综合考虑应用规模等因素,但是如果选择了HBase,必须要有团队专门维护。

时间: 2024-11-27 10:24:02

NoSQL之HBase的相关文章

益百利将大数据用于实时营销

Hadoop和Hbase通过每小时处理1亿份记录的方式,为全球最大的信用局益百利(Experian))把消费者接触点(Consumer touch points)连接在一起. 益百利(Experian).全联(Transunion)和艾可飞(Equifax)等信用局积累消费者个人数据已经有数十年时间了,这些公司的客户主要是开展针对性活动的营销人员.为了应对社交媒体.网页浏览等消费者接触点实时更新的需求,益百利从大型机转向了具有架构扩展功能的Hadoop和HBase.该公司现在的目标是,每小时处理

Yahoo的新一代大数据技术架构解析

Hadoop是当前最流行的大数据技术架构,很多大数据应用都是建立在Hadoop平台基础之上.很多人都知道Hadoop是Apache基金会的顶级开源项目,但并不是每个人都知道,在Hadoop的演进发展中,70%的贡献是来自Yahoo公司. Yahoo公司是Hadoop平台最大的用户.最有力的应用支持者和Hadoop商业化的重要推动者,Hadoop一直是Yahoo公司云计算平台的核心,Yahoo公司最大的单个Hadoop集群由4000个节点组成,Yahoo公司的推荐系统.广告分析等应用均建立在Had

《MapReduce 2.0源码分析与编程实战》一1.1 数据管理系统:速成

1.1 数据管理系统:速成 HBase实战关系型数据库系统已经存在几十年了,多年来在解决数据存储.服务和处理问题方面取得了巨大的成功.一些大型公司使用关系型数据库建立了自己的系统,比如联机事务处理系统和后端分析应用系统. 联机事务处理(OLTP)系统用来实时记录交易信息.对这类系统的期望是能够快速返回响应信息,一般是在毫秒级.例如,零售商店的收银机在客户购买和付款时需要实时记录相应信息.银行拥有大型OLTP系统,用来记录客户之间转账之类的交易信息,但OLTP不仅仅用于资金交易,像LinkedIn

目前硅谷最火最有名的高科技创业公司都有哪些?

摘要: 1.目前硅谷最火最有名的高科技创业公司都有哪些? 在硅谷大家非常热情的谈创业谈机会,我也通过自己的一些观察和积累,看到了不少最近几年涌现的热门创业公司.我给大家一个 1.目前硅谷最火最有名的高科技创业公司都有哪些? 在硅谷大家非常热情的谈创业谈机会,我也通过自己的一些观察和积累,看到了不少最近几年涌现的热门创业公司.我给大家一个列表,这个是华尔街网站的全世界创业公司融资规模评选.它本来的标题是billion startup club,我在去年国内讲座也分享过,不到一年的时间,截至到201

对硅谷和硅谷科技公司的十四问

摘要: 1.目前硅谷最火最有名的高科技创业公司都有哪些? 在硅谷大家非常热情的谈创业谈机会,我也通过自己的一些观察和积累,看到了不少最近几年涌现的热门创业公司.我给大家一个 1.目前硅谷最火最有名的高科技创业公司都有哪些? 在硅谷大家非常热情的谈创业谈机会,我也通过自己的一些观察和积累,看到了不少最近几年涌现的热门创业公司.我给大家一个列表,这个是华尔街网站的全世界创业公司融资规模评选.它本来的标题是billion startup club,我在去年国内讲座也分享过,不到一年的时间,截至到201

[Hadoop大数据]——Hive初识

Hive出现的背景 Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想.但是想要写出MapReduce算法还是比较繁琐的,对于开发者来说,需要了解底层的hadoop api.如果不是开发者想要使用mapreduce就会很困难.... 另一方面,大部分的开发者都有使用SQL的经验.SQL成为开发者必备的技能... 那么可以不可以使用SQL来完成MapReduce的过程呢?-- 答案就是,Hive Hive能够解决的问题 Hive可以帮助开发者从现有的数

对硅谷和硅谷科技公司的十四问:估值泡沫/大数据等

从硅谷公司哪家强,到人人在议的泡沫问题,大数据和人工智能如何结合?2015年的科技前瞻是怎样一副图景?来自硅谷的Coursera软件工程师董飞将其近日在斯坦福公开讲座上的干货和各种场合的问答整理出来和大家分享.文中有他的一手从业经验,也有其对亲身就职或深度研究过的一些公司具体分析,如Hadoop.Amazon.LinkedIn等.董飞的知乎页面在这里,邮箱是dongfeiwww@gmail.com. 1.目前硅谷最火最有名的高科技创业公司都有哪些? 在硅谷大家非常热情的谈创业谈机会,我也通过自己

NoSQL高级培训课程-HBase&&MongoDB(两天版)

课程大纲 主题 时间 主题 列数据库 (第1天) 上午 HBase发展简史-Google BigTable的开源实现 HBase基础:安装部署.管理命令.运行监控和开发接口: HBase专题:服务组件.存储模式.逻辑架构 下午 HBase优化:配置调优.客户端架构调优 HBase应用:实时查询数据库与操作数据库 HBase案例:XX实时查询数据库系统 文档数据库 (第2天) 上午 MongoDB概述-最类似关系型数据库的No-SQL MongoDB物理存储-并非NoSQL,为何MongoDB仍然

使用HBase Client访问阿里云NoSQL数据库表格存储

Apache HBase Apache HBase是Hadoop database,属于Hadoop生态系统. 自从十四年前Google相继发布论文:<The Google File System>.<MapReduce: Simplified Data Processing on Large Clusters>和<Bigtable: A Distributed Storage System for Structured Data>后,开源界开始模仿论文设计开源版本的这