三款大数据工具比拼,谁才是真正的王者

业内有这样一种说法,SQL虽然在大数据分析领域久经考验,但是无奈长江后浪推前浪,和炙手可热的Hadoop相比,SQL已经过时了。这个说法有点言过其实,现在很多的项目都是将Hadoop作为数据存储,然后利用SQL进行前端查询。这说明Hadoop需要一种高级查询语言的支持。 Hadoop MapReduce虽然能够进行数据分析,但是太复杂了。于是,开发人员开发出了类似SQL的Pig和Hive。

大数据时代,我们有很多的查询工具可以选择。虽然SQL占据着绝对优势,但是随着大数据的持续升温,也给了Apache Pig和Hive很大的发挥空间。工欲善其事必先利其器,如果选择了合适的平台和语言,会让数据的提取,处理和分析达到事半功倍的效果。未来,数据会越来越大,数据分析必须要更易操作。处理速度快和操作简单必定成为大数据分析的主流趋势。

Apache Pig,Apache Hive和SQL是当今主流的大数据工具。它们各有优势,下面我们就先来简单介绍Apache Pig、Apache Hive和SQL。

  SQL

结构化查询语言(SQL)是程序员的最佳伴侣,主要用于处理和提取数据。大数据改变了数据处理和可视化的方式。但是SQL严格的关系数据库模式和声明特性依然是数据分析的标杆。尽管SQL市场广阔,但是大数据也对SQL的功能和性能提出了挑战。

Pig

Apache Pig适合有SQL背景的程序员学习,其有以下两个特点:

1.放宽了对数据存储的要求

2.可以操作大型数据集

Apache Pig是雅虎在2006年开发,除了上述特点,它还有很好的可扩展性和性能优化。 Apache Pig允许开发人员跟踪多个查询方法,从而降低了数据的重复检索。它支持复合数据类型(Map、Tuple、Bag),支持常见的数据操作,例如筛选、排序和Join。Apache Pig的这些特性得到了世界各地用户的认可,就连雅虎和推特也采用了Apache Pig。

Hive

尽管Apache Pig性能优异,但是它要求程序员要掌握SQL之外的知识。Hive和SQL非常相似,虽然Hive查询语言(HQL)有一定的局限性,但它仍然是非常好用的。Hive为MapReduce提供了很好的开源实现。它在分布式处理数据方面表现很好,不像SQL需要严格遵守模式。

数据的提取、处理和分析没有一个万全之策,需要综合多种因素来选择,例如数据存储方法,编程语言结构以及预期的结果。下面我们就来对比一下Pig、Hive和SQL,看看它们各自都适合什么样的场景。

Pig VS SQL

SQL在DBMS系统的运行速度要比MapReduce(Pig运行在PigLatin平台)快。然而,RDBMS的数据加载很具挑战,设置困难。 PigLatin在声明式执行计划、ETL流程和管道修改方面更有优势。

在很大程度上,SQL是声明式语言,而PigLatin是过程语言。SQL主要是指定完成的对象,即要完成“什么”,而Pig主要是制定完成的方式,即“如何”执行一个任务。在执行之前,Pig脚本要转化成MapReduce任务。不过,Pig脚本比相应的MapReduce任务要短,显著缩短了开发时间。

Hive VS SQL

SQL是一个被广泛用于事务性和分析查询的通用数据库语言。而Hive是以数据分析为目标而设计的,这也决定了Hive会缺少更新和删除功能,但是读取和处理海量数据的能力会很强。Hive和SQL是非常相似的,最主要的区别就是Hive缺少更新和删除功能。

尽管Hive和SQL有所区别,但是如果你有SQL背景,就可以平稳过渡到Hive。另外,一定要注意两者在结构和语法上的差异。

相信大家通过上面对Pig、Hive和SQL的介绍,对它们都有了一定的了解,下面我们就来介绍一下它们的具体适用场景。

Apache Pig的适用场景

Apache Pig适用于非结构化的数据集,可以充分利用SQL。Pig无需构建MapReduce任务,如果你有SQL学习的背景,那么入门会非常快。

Apache Hive的应用场景

很多企业都需要对历史数据进行分析,Hive就是一款分析历史数据的利器。但是Hive只有在结构化数据的情况下才能大显神威。Hive的软肋是实时分析,如果想要进行实时分析,可以采用HBase。

SQL的应用场景

SQL是三者之中资历最老的数据分析工具,随着用户需求的不断变更,SQL也在不断的自我更新,现在仍然是一个与时俱进的工具。对专业的数据分析师来说,毫无疑问,SQL比Excel要强,但是,它在快速处理和分析数据方面仍然存在着短板。如果数据要求不是很苛刻,SQL是一个很好的选择,它的广泛性和灵活性得到了开发人员的认可。因为绝大数的开发人员都熟悉SQL,所以可以马上上手,同时SQL还提供了一些扩展和优化功能,可以根据需求来定制产品。

现在还没有任何一个工具可以适用所有的数据,SQL、Pig和Hive都有各自的适用场景,所以适合自己应用场景的工具就是最好的工具。

====================================分割线================================

本文转自d1net(转载)

时间: 2024-11-27 14:42:36

三款大数据工具比拼,谁才是真正的王者的相关文章

2013 Bossie评选:最佳开源大数据工具

MapReduce的出现是为了突破数据库的局限.Giraph.Hama以及Impala等工具的出现则是为了突破MapReduce的局限.虽然上述方案的运行都需要以Hadoop为基础,但图形.文档.列式以及其它NoSQL数据库也是大数据当中不可或缺的组成部分. 哪款大数据工具能够满足您的需求?这个问题在如今解决方案数量迅速增长的背景之下,确实不容易回答. Apache Hadoop 当人们说起"大数据"或者"数据科学"时,他们指的往往是Hadoop项目.总体而言,Ha

选择一款大数据可视化展示工具,要几步?

众所周知,选择一款好用的大数据可视化展示工具是很多企业的共同问题.现在市面上,有很多的大数据可视化工具,国内外的,价位也不同.但是如果能万里挑一,选中一款适合自家企业的大数据可视化BI产品,可以说如虎添翼,实现企业大数据完美落地之路.因为,优秀的大数据可视化展示工具,不仅仅是使用敏捷,而且还可以帮助企业家更好地做决策,这一点是很多大数据可视化工具很难实现的一个高度. 那接下来就回到本文的主题:选择一款大数据可视化展示工具,要几步?其实,挑选BI工具没有固定的步骤,只是说在挑选过程中,客户应该看重

Bossies:最佳开源大数据工具

处理大数据可能会遇到各种各样的问题,目前没有任何工具可以完美地处理这一切--即便是Spark.在今年的 Bossie开源大数据工具中,你会发现最新最好的方法是利用大型集群进行索引.搜索.图形处理.流处理.结构化查询.分布式OLAP和机器学习,因为众多处理器和RAM可降低工作量级. Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了13款最佳开源大数据工具,Spark.Beam都名列榜

Bossies 2016:最佳开源大数据工具

处理大数据可能会遇到各种各样的问题,目前没有任何工具可以完美地处理这一切--即便是Spark.在今年的 Bossie开源大数据工具中,你会发现最新最好的方法是利用大型集群进行索引.搜索.图形处理.流处理.结构化查询.分布式OLAP和机器学习,因为众多处理器和RAM可降低工作量级. Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了13款最佳开源大数据工具,Spark.Beam都名列榜

如何利用大数据进行价值兑现才是正经事

如果有一天你可以预测未来,你要做的第一件事情是什么?买彩票?第二件.第三件事情呢? 先卖个关子,我们后面再说这件事情. 大数据是个产业,广义上指的是在这个信息过载时代围绕着海量信息产生.传播.收集.处理.创造价值的整个产品链条:狭义上一般指大数据存储与处理.数据挖掘的相关产业.目前市场上利用大数据最多的一般在于分析和预测. 根据本人10年来在这个行业的从业经验,大数据与前两年的云计算.再往前的网格计算.并行计算都是相同产业链上几个环节,它是作为概念被媒体和从业者炒作起来的.但不可否认的是,我们的

最适合Java开发者的大数据工具和框架

文章讲的是最适合Java开发者的大数据工具和框架,当今编程人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂.根据外媒的一项调查报告,以下列出了Java程序员在过去12个月内一直使用的一些工具或框架,或许会对你有意义. 先来看看大数据的概念.根据维基百科,大数据是庞大或复杂的数据集的广义术语,因此传统的数据处理程序不足以支持如此庞大的体量. 在许多情况下,使用SQL数据库存储/检索数据都是很好的选择.而现如今的很多情况下,它都不再

2015 Bossie评选:最佳开源大数据工具

Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark.Storm都名列榜单之上. InfoWorld在分布式数据处理.流式数据分析.机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具. 1. Spark 在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者

值得一试的4个大数据工具

如今,大数据越来越重要,因为企业需要处理来自多个来源的不断增长的存储数据. 采用大数据可以称之为一场完美风暴.廉价的存储和大量的结构化和非结构化数据的大量涌入,导致了诸多的大型数据工具得以开发,帮助企业"解锁"他们积累的数据,从客户记录到产品性能的结果等更多的数据. 像传统的商业智能(BI),这些新的大数据工具可以分析过去的趋势,并帮助企业识别重要模式,如特定的销售趋势.许多大数据工具现在提供了一个新一代预测和规范性的见解,以及深埋在企业数据中心的所有数据. 对于人们面临的挑战,调查机

奥维云网推多款大数据产品 奥维万象今揭牌

3月9日,2016年中国家电及消费电子博览会(简称"AWE2016")开幕.作为全球三大家电及消费电子展之一,本届AWE主题为"互联网+我的家","互联网+"在家电业中的优化和集成作用将作为重点展示,600多个家电及零配件厂商均将参展.在此背景下,2016中国大数据创新应用大会今日在上海召开. 中国家用电器协会秘书长徐东生表示,2016中国大数据创新应用大会作为中国家电及消费电子博览会(AWE)的重磅会议之一,中国家用电器协会的高度重视本次会议的