阿里5位嘉宾3个分享:HBaseCon Asia 2017干货满满

HBaseCon是Apache HBase官方举办的技术会议,主要目的是分享,交流HBase这个开源分布式大数据存储的使用和开发以及发展。HBaseCon发起于2012年。通常HBaseCon的举办地是在美国,这是HBaseCon第一次在亚洲举行,命名为Apache HBaseCon 2017 Asia。而且这次会议举办地选择在中国深圳,也足以见得HBase在中国的火爆程度和中国开发者们对HBase社区所做的卓越贡献。

Apache HBase是基于Apache Hadoop构建的一个分布式、可伸缩的Key-Value数据库,它提供了大数据背景下的高性能的随机读写能力。做为最早研究、使用和二次开发HBase技术的中国公司,阿里巴巴从2010年就开始使用HBase,经过近7年的发展,现在采用HBase存储的业务已经超过1000+,拥有了上万台的HBase集群规模,在HBase上存储的数据已达PB级。秉承开源和分享的精神,阿里把HBase的实践经验和改进不断回馈HBase社区,比如说Bucket Cache和Reverse Scan等功能,给HBase技术发展带来了非常深远的影响。同时,也给HBase社区培养了2名PMC和2名Committer,阿里在HBase社区的影响力可见一斑。那么这次HBaseCon 2017 Asia。阿里派出了一位HBase PMC和2位Committer,还有两位资深的HBase开发,给大家带来了十足的干货。

阿里干货系列

一、强同步复制

传统的HBase主备集群同步使用的方案是异步复制,这使得主备集群数据之间会有短暂的数据不同步现象。用户为了灾备,不得不放弃强一致模型。没法放弃强一致语义的用户,必须自己写一套复杂的逻辑来保证主备集群之间数据的读写一致性。阿里的HBase技术专家天引,在此次的HBaseCon Asia上给大家带来了强同步复制方案。

据天引介绍,强同步复制方案采用了主备并发写和RemoteLog技术,使得在同城网络条件下同步复制相对于异步复制仅有2%的吞吐量下降。当一个请求到达主库后,并发写本地和备库,到达备库的同步写不需要走完整的写入路径,而是直接写入RemoteLog,降低同步写开销与延时。除了同步链路外,还有一套异步链路将数据从主库复制到备库,因此正常情况下不需要回放RemoteLog的数据到备库,在主库不可服务的情况下,只需要回放RemoteLog中那些还没有被异步复制链路同步到备库的数据,异步复制只有几秒钟的数据延迟,这保证了可以在很短的时间内完成从主库到备库的切换。

此方案在大会现场引起了强烈反响,很多HBase用户表示这是他们期待已久的功能,希望能尽快使用上。天引表示此功能目前基于阿里内部分支实现、运行及完善,未来将会回馈给社区。

二、SQL on HBase

阿里HBase服务了大量的内部用户,并持续有新用户接入。但是使用HBase的用户有很大一部分是从传统的SQL数据库转过来的,HBase的rowkey设计和API的使用习惯对于他们来说并不友好。为了降低这些转型用户的使用门槛,阿里在HBase上引入了SQL层。来自阿里的资深HBase开发工程师天穆,给大家详细讲解了如何玩转SQL on HBase。

通过优化,现在在阿里使用SQL访问HBase和原生API的速度已经相差无几,而且在SQL语法上,创造性地支持HBase多版本和时间戳等NoSQL才具有的功能。

另外,在HBase上同时支持了全局二级索引和本地二级索引。使用户可以在多列上建立索引,简化了业务的设计,提升了请求效率,降低了使用成本。

三、跨集群分区拷贝

HBase上通常承载着海量的数据,而在日常生产过程中,随着业务的发展和公司数据中心的规划等原因,这些海量数据需要经常搬迁,这通常对于运维来说是一个非常头疼的问题。来自阿里的HBase社区Committer正研,分享了阿里跨集群分区拷贝的场景和成熟解决方案。

正研首先介绍了在阿里内部常见的需要数据拷贝的场景,比如说新建数据中心,HBase集群需要整体搬迁到新的机房;又比如说不同机房内的HBase集群的增量数据同步,可以用replication来解决,但是对于存量数据,目前还没有比较高效的方案;另外还一个常见场景就是数据恢复,而传统的HBase备份还原工具都没法控制数据恢复的范围。

因此,阿里研发了Range Data Copy功能内置在HBase中,提供了一个简单高效,而且能够自动处理各种错误情况和灾难恢复的数据拷贝功能,使用这个功能拷贝一张200TB的表到另外一个集群,所需时间不到5小时。

四、读写链路优化

在阿里使用HBase的过程中,对HBase本身做了非常多的读写性能优化。来自阿里的HBase社区PMC绝顶和Committer天照,一起给大家分享了阿里在这方面所取得的一些成果。

1、使用Netty替代HBase原生的RPC server,大大提升了HBaseRPC的吞吐能力,降低了延迟 ;

2、 引入新的HFileBlock编码格式,把顺序搜索变成了二分查找,提高了HBase随机读的能力

3、拆分写链路,释放阻塞的handler资源,提高了HBase写的吞吐能力 ;

来自阿里的这些优化黑科技,使HBase的能力又更上一个新台阶。并且这些优化和功能目前已经回馈给了社区,所有的HBase用户都能在新版本的使用获得这些技术红利。

总结

除了阿里带来的技术分享,现场许多其他公司也都带来了他们对HBase做出的改进和使用经验。比如说小米实现了AsyncClient,填补了HBase没有原生异步API的缺口;知乎使用kubernetes自动扩容缩容HBase集群,灵活地适应业务高速发展和瞬息万变;烽火网络隔离读写资源使近线查询更加稳定等等。

除了上述提到的这几个亮点技术分享,此次HBaseCon大会的每一个session都非常精彩,给大家带来了一场又一场思维碰撞的盛宴。Apache HBase“掌门人”Michael Stack也参加了此次会议,并与HBase开发者们举行了一次圆桌会议,共同探讨HBase的现状和未来。

这次HBaseCon的火爆程度,直接展示了国内企业和开发者们对HBase热情和期望。HBaseCon大会不仅给HBase的使用者们带来了最新鲜的技术进展,互通有无,吸收其他公司的先进经验;也成为HBase使用者和开发者之间沟通的桥梁,能让开发者们看到业界动态,用户的需求,共同把HBase打造成一个更加易用,更高性能,更稳定的大数据存储。这次HBaseCon大会是一个很好的开端,期望HBaseCon Asia越办越好,给大家带来更多的干货!

最后

如果你对大数据在线存储、对HBase感兴趣,或者是想更好地使用HBase、开发更NB的产品,欢迎联系我们(正研,zhengyan.ywl@alibaba-inc.com),一起交流,互相学习!  

本文作者:杨文龙(正研)

来源:51CTO

时间: 2024-09-19 10:00:46

阿里5位嘉宾3个分享:HBaseCon Asia 2017干货满满的相关文章

阿里上市之夜,虎嗅微信电台请来三位嘉宾畅聊

注:9月19日,阿里上市之夜,虎嗅微信电台请来三位嘉宾畅聊.第一位天芳集的创始人徐颖女士,是淘宝资深大卖家(派代电商学院讲师),拥有近十年的淘宝创业经验,对淘宝.天猫生态圈有切身的体会和了解:第二位是NOP的创始人刘爽先生,做过刘强东的助理,对电商有深刻的认识:第三位是起源资本合伙人雷中辉先生,资本运营有很深厚的功底,早年做财经记者时跟过电商. 以下是昨晚的电台访谈实录精华. 1.主持人(虎嗅电台dvdv):各家媒体做了大量关于阿里巴巴.关于马云个人的盘点和总结,而虎嗅更愿意看它的未来.所以,今

《艺术人生》十年梳理百位嘉宾节目串烧

2001年嘉宾蒋雯丽做客<艺术人生>节目现场 2001年嘉宾濮存昕做客<艺术人生>现场 2008年孙红雷做客<艺术人生>现场挑起霹雳舞 2009年3月乐队纵贯线做客<艺术人生>栏目组:现场合唱 新浪娱乐讯 十年来,百余期节目,近千位嘉宾都曾在<艺术人生>的舞台有过精彩的瞬间.在之前播出的精编节目中,<艺术人生>也分别为大家集锦了赵本山.刘欢之欢声笑语."四小花旦"的花样年华,还有<西游记>.<红楼

Python随机生成一个6位的验证码代码分享

 这篇文章主要介绍了Python随机生成一个6位的验证码代码分享,本文直接给出代码实例,需要的朋友可以参考下     1. 生成源码   代码如下: # -*- coding: utf-8 -*-   import random def generate_verification_code(): ''' 随机生成6位的验证码 ''' code_list = [] for i in range(10): # 0-9数字 code_list.append(str(i)) for i in range

JS实现的4种数字千位符格式化方法分享

 这篇文章主要介绍了JS实现的4种数字千位符格式化方法分享,本文给出了4种千分位格式化方法并对它们的性能做了比较,需要的朋友可以参考下     所谓的数字千分位形式,即从个位数起,每三位之间加一个逗号.例如"10,000".针对这个需求,我起初写了这样一个函数: 代码如下: // 方法一 function toThousands(num) { var result = [ ], counter = 0; num = (num || 0).toString().split(''); fo

nhibernate-NHibernate成套的教程哪位大哪位大神能够分享一下

问题描述 NHibernate成套的教程哪位大哪位大神能够分享一下 小弟我最近自学Nhibernate可是苦于找不到好的视频教程,哪位大神有成套的视频是否愿意跟小弟分享一下呢,小弟我先在这里谢谢了 解决方案 你把你qq给我 我传给你 解决方案二: http://www.soku.com/search_video/q_hibernate+%E9%A9%AC%E5%A3%AB%E5%85%B5_orderby_3 解决方案三: 本质上说,hibernate和nhibernate是相通的,因为无非就是

阿里聚安全移动安全专家分享:APP渠道推广作弊攻防那些事儿

移动互联网高速发展,要保持APP持续并且高速增长所需的成本也越来越高.美团网CEO在今年的一次公开会议上讲到:"2017年对移动互联网公司来说是非常恐的.".主要表现在三个方面,手机数不涨了.竞品太多.推广费涨30%.一本财经媒体也曾报道了一条灰色产业链,1000万流量推广预算的60%被内鬼.中介.羊毛党吞噬. APP在渠道推广过程中,如果无法监控真实性的APP推广行为,很可能是在为灰产送钱.互联网钱多的地方,黑客也多,刷量成为非常值得薅羊毛的一个点.企业不仅仅是浪费了大量的人力物力,

使用vb.net生成tar包,哪位高手有案例分享一下

问题描述 使用vb.net生成tar包,哪位高手有案例分享一下,弄了两天了没有弄出来,谢谢大神门 解决方案 解决方案二:用SharpZipLib,我回答过你了.解决方案三:用这个包ICSharpCode.SharpZipLib.dll

谷歌 HBaseCon West 2017 大数据研讨会开幕在即,搞 Apache HBase 的开发者不可错过

日前谷歌通过官方博客宣布,基于 Apache HBase 社区的官方研讨会 HBaseCon West 2017 将于美国当地时间 6 月 12 日在加州山景城正式开幕,目前参会注册和论文征集活动已同步启动.对各位 Hadoop Hbase 相关的大数据从业人员及开发者而言,这场量身定制的免费技术研讨活动可绝对不能错过. Apache HBase 是基于 Hadoop 框架和谷歌 Bigtable 技术建立起来的一款分布式.可拓展的开源数据库实现.谷歌在博客中表示,得益于阿里巴巴.苹果.Face

阿里12位女合伙人成立的湖畔魔豆开始行动,聚焦0-3岁儿童发展领域

昨天(2017年11月30日),湖畔魔豆公益基金会("湖畔魔豆")理事长闻佳在"中国儿童早期发展高峰论坛"活动中首次明确,湖畔魔豆在困境儿童领域的工作,将聚焦农村0-3岁留守儿童的健康成长,与政府.研究机构一起合作,整合更多社会力量,在支持儿童早期综合发展上进行长期积极的投入和推动,致力"让每个孩子站在同一起跑线上". 此次2017第四届中国婴幼儿发展论坛-中国儿童早期发展高峰论坛,于2017年11月29日下午-30日在广州白云国际会议中心举办,