大数据时代必修技能 阿里HBase又放出了哪些大招?

HBaseCon是Apache HBase官方举办的技术会议,主要目的是分享,交流HBase这个开源分布式大数据存储的使用和开发以及发展。HBaseCon发起于2012年。通常HBaseCon的举办地是在美国,这是HBaseCon第一次在亚洲举行,命名为Apache HBaseCon 2017Asia。而且这次会议举办地选择在中国深圳,也足以见得HBase在中国的火爆程度和中国开发者们对HBase社区所做的卓越贡献。

Apache HBase是基于Apache Hadoop构建的一个分布式、可伸缩的Key-Value数据库,它提供了大数据背景下的高性能的随机读写能力。做为最早研究、使用和二次开发HBase技术的中国公司,阿里巴巴从2010年就开始使用HBase,经过近7年的发展,现在采用HBase存储的业务已经超过1000+,拥有了上万台的HBase集群规模,在HBase上存储的数据已达PB级。

秉承开源和分享的精神,阿里把HBase的实践经验和改进不断回馈HBase社区,比如说Bucket Cache和Reverse Scan等功能,给HBase技术发展带来了非常深远的影响。同时,也给HBase社区培养了2名PMC和2名Committer,阿里在HBase社区的影响力可见一斑。那么这次HBaseCon 2017 Asia。阿里派出了一位HBase PMC和2位Committer,还有两位资深的HBase开发,给大家带来了十足的干货。

阿里干货系列

一、强同步复制

传统的HBase主备集群同步使用的方案是异步复制,这使得主备集群数据之间会有短暂的数据不同步现象。用户为了灾备,不得不放弃强一致模型。没法放弃强一致语义的用户,必须自己写一套复杂的逻辑来保证主备集群之间数据的读写一致性。阿里的HBase技术专家天引,在此次的HBaseCon Asia上给大家带来了强同步复制方案。

据天引介绍,强同步复制方案采用了主备并发写和RemoteLog技术,使得在同城网络条件下同步复制相对于异步复制仅有2%的吞吐量下降。当一个请求到达主库后,并发写本地和备库,到达备库的同步写不需要走完整的写入路径,而是直接写入RemoteLog,降低同步写开销与延时。除了同步链路外,还有一套异步链路将数据从主库复制到备库,因此正常情况下不需要回放RemoteLog的数据到备库,在主库不可服务的情况下,只需要回放RemoteLog中那些还没有被异步复制链路同步到备库的数据,异步复制只有几秒钟的数据延迟,这保证了可以在很短的时间内完成从主库到备库的切换。

此方案在大会现场引起了强烈反响,很多HBase用户表示这是他们期待已久的功能,希望能尽快使用上。天引表示此功能目前基于阿里内部分支实现、运行及完善,未来将会回馈给社区。

二、SQL on HBase

阿里HBase服务了大量的内部用户,并持续有新用户接入。但是使用HBase的用户有很大一部分是从传统的SQL数据库转过来的,HBase的rowkey设计和API的使用习惯对于他们来说并不友好。为了降低这些转型用户的使用门槛,阿里在HBase上引入了SQL层。来自阿里的资深HBase开发工程师天穆,给大家详细讲解了如何玩转SQL on HBase。

通过优化,现在在阿里使用SQL访问HBase和原生API的速度已经相差无几,而且在SQL语法上,创造性地支持HBase多版本和时间戳等NoSQL才具有的功能。

另外,在HBase上同时支持了全局二级索引和本地二级索引。使用户可以在多列上建立索引,简化了业务的设计,提升了请求效率,降低了使用成本。

三、跨集群分区拷贝

HBase上通常承载着海量的数据,而在日常生产过程中,随着业务的发展和公司数据中心的规划等原因,这些海量数据需要经常搬迁,这通常对于运维来说是一个非常头疼的问题。来自阿里的HBase社区Committer正研,分享了阿里跨集群分区拷贝的场景和成熟解决方案。

正研首先介绍了在阿里内部常见的需要数据拷贝的场景,比如说新建数据中心,HBase集群需要整体搬迁到新的机房;又比如说不同机房内的HBase集群的增量数据同步,可以用replication来解决,但是对于存量数据,目前还没有比较高效的方案;另外还一个常见场景就是数据恢复,而传统的HBase备份还原工具都没法控制数据恢复的范围。

因此,阿里研发了Range Data Copy功能内置在HBase中,提供了一个简单高效,而且能够自动处理各种错误情况和灾难恢复的数据拷贝功能,使用这个功能拷贝一张200TB的表到另外一个集群,所需时间不到5小时。

四、读写链路优化

在阿里使用HBase的过程中,对HBase本身做了非常多的读写性能优化。来自阿里的HBase社区PMC绝顶和Committer天照,一起给大家分享了阿里在这方面所取得的一些成果。

1、使用Netty替代HBase原生的RPC server,大大提升了HBaseRPC的吞吐能力,降低了延迟 ;

2、 引入新的HFileBlock编码格式,把顺序搜索变成了二分查找,提高了HBase随机读的能力

3、拆分写链路,释放阻塞的handler资源,提高了HBase写的吞吐能力 ;

来自阿里的这些优化黑科技,使HBase的能力又更上一个新台阶。并且这些优化和功能目前已经回馈给了社区,所有的HBase用户都能在新版本的使用获得这些技术红利。

总结

除了阿里带来的技术分享,现场许多其他公司也都带来了他们对HBase做出的改进和使用经验。比如说小米实现了AsyncClient,填补了HBase没有原生异步API的缺口;知乎使用kubernetes自动扩容缩容HBase集群,灵活地适应业务高速发展和瞬息万变;烽火网络隔离读写资源使近线查询更加稳定等等。
除了上述提到的这几个亮点技术分享,此次HBaseCon大会的每一个session都非常精彩,给大家带来了一场又一场思维碰撞的盛宴。Apache HBase“掌门人”Michael Stack也参加了此次会议,并与HBase开发者们举行了一次圆桌会议,共同探讨HBase的现状和未来。

这次HBaseCon的火爆程度,直接展示了国内企业和开发者们对HBase热情和期望。HBaseCon大会不仅给HBase的使用者们带来了最新鲜的技术进展,互通有无,吸收其他公司的先进经验;也成为HBase使用者和开发者之间沟通的桥梁,能让开发者们看到业界动态,用户的需求,共同把HBase打造成一个更加易用,更高性能,更稳定的大数据存储。这次HBaseCon大会是一个很好的开端,期望HBaseCon Asia越办越好,给大家带来更多的干货!

云端使用

阿里HBase目前已经在阿里云提供商业化服务,任何有需求的用户都可以在阿里云端使用深入改进的、一站式的HBase服务。云HBase版本与自建HBase相比在运维、可靠性、性能、稳定性、安全、成本等方面有较多的改进。具体表现为,在运维方面:15分内完成部署,全指标监控预警,在线扩容节点、磁盘及修改配置,集群自动更新升级,专家在线坐诊;性能方面:性能提升30%以上,个别scan等性能提升100%+;可靠性方面:多副本机制,副本丢失及时感知检测恢复,提供9个9个数据可靠性;稳定性方面:进程自动守护,单节点秒级别检测并自动故障迁移,提供99.95%集群可用性;成本方面:后续支持共享存储,存储成本下降一倍以上;安全方面:提供白名单隔离,支持VPC,后续支持阿里云ak,更多内容欢迎大家关注https://www.aliyun.com/product/hbase

作者简介

杨文龙,花名正研,阿里巴巴存储技术事业部资深研发,HBase开源社区Committer。开源技术爱好者,对分布式存储系统的设计、实践具备丰富的大规模生产的经验。

来源:阿里技术
原文链接

时间: 2024-08-31 19:53:18

大数据时代必修技能 阿里HBase又放出了哪些大招?的相关文章

全民大数据时代已来 阿里数加平台详解

文章讲的是全民大数据时代已来 阿里数加平台详解,业界流行一种说法,云计算与大数据就是一枚硬币的两面,相生相惜,不可分割.在当下互联网时代,数据的价值越来越受到社会的认可,并在今天,已然成为一种普惠资源,像水.电.能源一样支持社会发展.今天,2016年的阿里云栖大会首站在上海拉开帷幕,作为本场大会的重磅新闻,阿里云全球首发了可以提供一站式大数据处理能力的平台--"数加",并全新亮相了20款新产品,通过阿里云开放出来,让"普惠大数据"成为可能. DT时代 如何让数据从成

阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储

前言 时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台. 这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅.从最初的淘宝历史交易记录,到去年的支付宝消费记录存储在线历史存储统一:从蚂蚁安全风控的多年存储演进,到HBase.TT.Galaxy的大数据激情迭代:HBase在阿里经历过年轻的苦涩,释放过青春的活力,也付出过成长的代价.几代人的不懈努力下,五年陈的HBase开始表现出更成熟.更

大数据时代的结构化存储—HBase在阿里的应用实践

前言 时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台. 这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅.从最初的淘宝历史交易记录,到去年的支付宝消费记录存储在线历史存储统一:从蚂蚁安全风控的多年存储演进,到HBase.TT.Galaxy的大数据激情迭代:HBase在阿里经历过年轻的苦涩,释放过青春的活力,也付出过成长的代价.几代人的不懈努力下,五年陈的HBase开始表现出更成熟.更

大数据时代结构化存储云HBase技术架构及最佳实践

在10年,阿里研究HBase,是为了解决阿里容量及并发的实际问题,按照数据库要求,阿里深入HBase技术,并致力于保障稳定性和性能,目前已经有10000台规模,数百个集群,大约1亿的QPS,服务整个集团的业务.17年,把这部分能力也开放给公有云客户.本文中,阿里云高级专家封神带来了主题演讲<大数据时代结构化存储云HBase技术架构及最佳实践>,介绍HBase的应用选择.实战案例.技术平台解读以及后续的规划. 为什么应用HBase 一般而言,传统关系型数据库面临着成本.容量.QPS.分析等多方面

HBase,轻松应对大数据时代的储存

本文PPT来自阿里中间件高级专家沈春辉于10月16日在2016年杭州云栖大会上发表的<大数据时代的储存--HBase的实践与探索>. 我们现在都过着一个数据驱动的生活,不管是安全风控.生意参谋.还是借贷保险.或是出行决策,背后都少不了大数据的支撑.大数据场景本身固有的数据基础量大.增长快.时效性短.易发散和易产生脏数据等问题,导致人们投入了大量的精力来开发处理解决这些问题的数据库系统,比如Teradata.MongoDB.Cassandra.HBase.PostgreSQl等. 在这些系统就有

阿里集团刘冰:未来的时代是大数据时代

文章讲的是阿里集团刘冰:未来的时代是大数据时代, 7月23日上午消息,2015中国互联网大会之国际互联网高峰论坛在北京国际会议中心举行.阿里巴巴集团副总裁刘冰在现场做了主题的演讲. 刘冰表示,未来的时代是大数据时代,大数据就像魔方一样吸引着人类,相信在未来.在中国会产生100个.1000个.甚至10000个超越阿里巴巴的公司. 在其看来,现在我们生活在一个非常好的时代,互联网是基础设施,大数据是战略资源,云计算是核心竞争力. 以下是刘冰演讲全文: 尊敬的卢秘书长,尊敬的各位来宾.各位朋友,大家上

阿里云全新一代企业级新品解读—通过MaxCompute Studio实践大数据时代的DevOps

今天是2017杭州·云栖大会的第一天,这场科技盛宴吸引了来自全球的参展商.开发者.相关从业人员以及科技爱好者.在今天上午的主论坛,阿里云总裁胡晓明在发言中重点提及的新一代计算平台MaxCompute会在本次大会中多次亮相. 作为大数据计算服务的基石,MaxCompute不仅会在本次大会上发布作为全球BigBench测评第一计算引擎的测评结果,更在14日上午举办阿里云大数据计算服务(MaxCompute)专场.同时也会在云栖大会落幕后,贴身为广大开发者奉上<通过MaxCompute Studio实

大数据时代,喀什中院的“炫酷技能”

数十秒内精准查控"老赖"名下存款,远程视频接访数千里外申诉人,司法公开信息"一网打尽",法官只需输入相关信息,电脑就能自动生成格式化文书,工作效率大大提高,--这些"炫酷技能",都是新疆喀什地区中级人民法院依托"互联网+"技术,在审判和执行工作中实现的创新突破.随着大数据时代的到来,喀什中院与时俱进,积极发挥互联网的传播优势,充分运用信息化手段,提高审判质效,强化司法便民措施,有力地促进了审判执行工作质量和效率的提升. 无纸化

大数据时代你应该掌握哪些技能?

大数据已经逐渐渗透进我们生活的方方面面.网络安全公司利用大数据来提升日常侦查工作的安全性;数据服务行业利用大数据帮助顾客找到便捷的解决方案;在防诈骗的工作中,大数据可以提升工作的准确性,提高效率,以达到保护私人财产安全的效果. "大数据"是一个对于大量数据进行分装的概念.大数据可以是一家信用卡公司的交易信息.在线零售商的发票信息.气象站的气象测量指标等.所有的数据,都具有其独一无二的特征,很难用传统的计算方法和技术加以分类.分析.此外,数据还具有时效性,假如没有及时地加以分析,数据的性