Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?….请教了^_^没关系这里我帮大家理清每个技术的原理和思路。

Pig

一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:)

Pig是一种数据流语言,用来快速轻松的处理巨大的数据。

Pig包含两个部分:Pig Interface,Pig Latin。

Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以非常高效的处理其需要做的,通过直接操作Pig查询可以节省大量的劳动和时间。当你想在你的数据上做一些转换,并且不想编写MapReduce jobs就可以用Pig.

Hive

不想用程序语言开发MapReduce的朋友比如DB们,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

注意Hive现在适合在离线下进行数据的操作,就是说不适合在挂在真实的生产环境中进行实时的在线查询或操作,因为一个字“慢”。相反

起源于FaceBook,Hive在Hadoop中扮演数据仓库的角色。建立在Hadoop集群的最顶层,对存储在Hadoop群上的数据提供类SQL的接口进行操作。你可以用 HiveQL进行select,join,等等操作。

如果你有数据仓库的需求并且你擅长写SQL并且不想写MapReduce jobs就可以用Hive代替。

HBase

HBase作为面向列的数据库运行在HDFS之上,HDFS缺乏随即读写操作,HBase正是为此而出现。HBase以Google BigTable为蓝本,以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。

HBase是一个数据库,一个NoSql的数据库,像其他数据库一样提供随即读写功能,Hadoop不能满足实时需要,HBase正可以满足。如果你需要实时访问一些数据,就把它存入HBase。

你可以用Hadoop作为静态数据仓库,HBase作为数据存储,放那些进行一些操作会改变的数据。

Pig VS Hive

Hive更适合于数据仓库的任务,Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使 其成为Hadoop与其他BI工具结合的理想交集。

Pig赋予开发人员在大数据集领域更多的灵活性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的 应用程序。

Pig相比Hive相对轻量,它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。正因为如此,Pig仍然是吸引大量的软件开发人员。

Hive和Pig都可以与HBase组合使用,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单

Hive VS HBase

Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。

想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。

Hive query就是MapReduce jobs可以从5分钟到数小时不止,HBase是非常高效的,肯定比Hive高效的多。

时间: 2024-11-16 20:52:38

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别的相关文章

Hadoop生态上hive、pig、hbase 关系与区别

初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,http://www.aliyun.com/zixun/aggregation/13713.html">HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我帮大家理清每个技术的原理和思路. Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司

专访阿里王峰:Hadoop生态下一代计算引擎-streaming和batch的统一

编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用.在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况.本次InfoQ便采访了阿里搜索离线基础平台团队负责人王峰,和大家一起聊一聊Hadoop. 问:您是2009年开始关注Hadoop生态技术发展,并逐步将其引入阿里电商搜索技术体系.

盘点SQL on Hadoop中用到的主要技术

考虑到系统使用的广泛程度与成熟度,在具体举例时一般会拿Hive和Impala为例,当然在调研的过程中也会涉及到一些其他系统,如Spark SQL,Presto,TAJO等.而对于HAWQ这样的商业产品和apache drill这样成熟度还不是很高的开源方案就不做过多了解了. 系统架构 Runtime Framework v.s. MPP 在SQL on Hadoop系统中,有两种架构,一种是基于某个运行时框架来构建查询引擎,典型案例是Hive;另一种是仿照过去关系数据库的MPP架构.前者现有运行

大数据生态不再让金融技术“隔靴搔痒”

文章讲的是大数据生态不再让金融技术"隔靴搔痒",1月4日,李克强总理在腾讯发起的前海微众银行敲下了电脑回车键,卡车司机徐军就拿到了3.5万元贷款,成为国内首家互联网银行的首笔贷款业务.这一无网点.无柜台也无财产担保要求的微众银行,全凭人脸识别技术和大数据信用评级放贷. "微众银行一小步,金融改革一大步."李克强评价道. 三周后,BAT另一巨头阿里巴巴,因淘宝售假受到国家工商总局质疑,马云高调宣布"将设300人专职打假",用大数据手段向假货宣战,加

学者贵于行,报名参加线上大数据技术峰会的4个理由

回顾大数据技术领域大事件,最早可追溯到2006年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术.这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦.然而着眼当下,大数据在行业内的实际落地仍然不是件简单的事情,大数据创业成功的案例更是少之又少. 票选14个大数据案例,布道14种不同类型玩法 机器学习.增量流计算,阿里规模的技术实践 本次"大数据技术峰会"上,4位行业应用专家之外,6位

Hadoop 如何推动现代数据仓库技术的变革

在2016 Hadoop技术峰会的主题演讲上,星环科技创始人孙元浩深入浅出的阐述了Hadoop是如何推动数据仓库技术进行深刻变革. 一.数据库技术进入战略转折点 今年大会的主题是Hadoop十年.2006年雅虎等团队开始研发Hadoop技术至今已整整十年.在此之间技术发展迅速,Hadoop上的生态系统逐渐扩大.各个行业的用户逐渐开始基于这一新的技术来开发全新的应用,甚至将原先的应用向Hadoop之上进行迁移.未来,Hadoop会成为企业数据中心的核心.经过这10年的发展,今年开始进入一个战略转折

Hortonworks IPO背后:在Hadoop征途上奋力前行

Hadoop可谓风头又盛,这一点相信大家都不会有异议.不过真正的问题在于,这种强劲势头到底源自何方.又能否成功跨出硅谷的极客圈子迈入主流企业环境.随着Hortonworks公司递交首轮公开募股申请文件.加上有报道称Cloudera的产品销售额正式突破1亿美元大关,我们似乎已经可以认为Hadoop在主流市场上得到了肯定. 不过,现实我的朋友,现实远没有那么美好. 对于大多数企业而言,Hadoop仍然是一只拥有着极高复杂性与驾驭难度的猛兽,这也是Hortonworks公司的营收总额当中有43%源自利

Java服务化系统线上应急和技术攻关,你必须掌握的Linux命令

上一篇文章<Java服务化系统线上应急和技术攻关,你必须拥有的那些应用层脚本和Java虚拟机命令>介绍了笔者在互联网公司里线上应急和技术攻关过程中积累的应用层脚本和Java虚拟机命令,这些脚本和命令在发现问题和定位问题的过程中起到关键作用,然而,经常会遇到一些深层次的问题,仅仅通过应用层和JVM虚拟机层的信息无法定位问题和解决问题,这时需要深入研究系统级的各种参数和信息,才能确定问题的根源原因,例如:网络超时.机器负载过高.JVM OOM.JVM和内核Bug等,这篇文章介绍那些重要的Linux

阿里封神谈hadoop生态学习之路

引言 当前,越来越多的同学进入大数据行业,有的是底层的技术,有的是工程,有的是算法,有的是业务.每个产品.都需要工程化的实现,以前,工程师都是操练着java/python/c等各种语言操纵中各类的软件,比如jquery,spring.mysql,实现产品的业务逻辑.在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop.hive.spark.hbase.jstorm等.笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1.ODPS等项目,目前在负责阿里云的HBas