教你如何挑选合适的大数据或Hadoop平台

今年,大数据在很多公司都成为相关话题。虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop已经成为事实上的标准。IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。你有多种选择来安装Hadoop的一个版本并实现大数据处理。本文讨论了不同的选择,并推荐了每种选择的适用场合。

Hadoop平台的多种选择

下图展示了Hadoop平台的多种选择。你可以只安装Apache 发布版本,或从不同提供商所提供的几个发行版本中选择一个,或决定使用某个大数据套件。每个发行版本都包含有Apache Hadoop,而几乎每个大数据套件都包含或使用了一个发行版本,理解这一点是很重要的。

下面我们首先从Apache Hadoop开始来好好看看每种选择。

Apache Hadoop

Apache Hadoop项目的目前版本(2.0版)含有以下模块:

Hadoop通用模块:支持其他Hadoop模块的通用工具集。

Hadoop分布式文件系统(HDFS):支持对应用数据高吞吐量访问的分布式文件系统。

Hadoop YARN:用于作业调度和集群资源管理的框架。

Hadoop MapReduce:基于YARN的大数据并行处理系统。

在本地系统上独立安装Apache Hadoop是非常容易的(只需解压缩并设置某些环境变量,然后就可以开始使用了)。但是这只合适于入门和做一些基本的教程学习。

如果你想在一个或多个“真正的节点”上安装Apache Hadoop,那就复杂多了。

问题1:复杂的集群设置

你可以使用伪分布式模式在单个节点上模拟多节点的安装。你可以在单台服务器上模拟在多台不同服务器上的安装。就算是在该模式下,你也要做大量的配置工作。如果你想设置一个由几个节点组成的集群,毫无疑问,该过程就变得更为复杂了。要是你是一个新手管理员,那么你就不得不在用户权限、访问权限等诸如此类的问题中痛苦挣扎。

问题2: Hadoop生态系统的使用

在Apache中,所有项目之间都是相互独立的。这是很好的一点!不过Hadoop生态系统除了包含Hadoop外,还包含了很多其他Apache项目:

Pig:分析大数据集的一个平台,该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。

Hive:用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据。

Hbase:一种分布的、可伸缩的、大数据储存库,支持随机、实时读/写访问。

Sqoop:为高效传输批量数据而设计的一种工具,其用于Apache Hadoop和结构化数据储存库如关系数据库之间的数据传输。

Flume:一种分布式的、可靠的、可用的服务,其用于高效地搜集、汇总、移动大量日志数据。

ZooKeeper:一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务。

还有其他一些项目。

你需要安装这些项目,并手动地将它们集成到Hadoop中。

你需要自己留意不同的版本和发布版本。不幸的是,不是所有的版本都能在一起完美地运行起来。你要自己比较发布说明并找出解决之道。Hadoop提供了众多的不同版本、分支、特性等等。跟你从其他项目了解的1.0、1.1、2.0这些版本号不同,Hadoop的版本可远没这么简单。如果你想更进一步了解关于“Hadoop版本地狱”的细节,请阅读“大象的家谱(Genealogy of elephants)”一文。

问题3:商业支持

Apache Hadoop只是一个开源项目。这当然有很多益处。你可以访问和更改源码。实际上有些公司使用并扩展了基础代码,还添加了新的特性。很多讨论、文章、博客和邮件列表中都提供了大量信息。

然而,真正的问题是如何获取像Apache Hadoop这样的开源项目的商业支持。公司通常只是为自己的产品提供支持,而不会为开源项目提供支持(不光是Hadoop项目,所有开源项目都面临这样的问题)。

时间: 2024-08-30 18:31:41

教你如何挑选合适的大数据或Hadoop平台的相关文章

如何挑选合适的大数据或Hadoop平台?

文章讲的是如何挑选合适的大数据或Hadoop平台,今年,大数据在很多公司都成为相关话题.虽然没有一个标准的定义来解释何为 "大数据",但在处理大数据上,Hadoop已经成为事实上的标准.IBM.Oracle.SAP.甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop.然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品.你有多种选择来安装Hadoop的一个版本并实现大数据处理.本文讨论了不同的选择,并推荐了每种选择的适用场合

如何挑选合适的大数据或Hadoop平台?

今年,大数据在很多公司都成为相关话题.虽然没有一个标准的定义来解释何为 "大数据",但在处理大数据上,Hadoop已经成为事实上的标准.IBM.Oracle.SAP.甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop.然而,当你已经决定要使用Hadoop来处理大数据时, 首先碰到的问题就是如何开始以及选择哪一种产品.你有多种选择来安装Hadoop的一个版本并实现大数据处理.本文讨论了不同的选择,并推荐了每种选择的适用场合. Hadoop平台的多种选择 下图展示了Had

大数据之Hadoop平台:Hadoop多用户管理

前言 &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;     最近有一些需求,就是需要在hadoop集群中实现多用户管理,因此在网上搜了很多的资料.其中有一种方法感觉还是比较可行,链 接:http://cn.soulmachine.me/blog/20140206/大概方式是:先新建一个用户test1,然后把hadoop的安装 目录复制一份copy到这个用户test1的目录下,再赋一下权限,然后这个用户就可以向集

企业如何选择合适的大数据产品测试基准

文章讲的是企业如何选择合适的大数据产品测试基准,随着开源Hapdoop.Map/Reduce.Spark.HDFS.HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展.一般来说,大数据具有3V特性,即Volume(海量).Velocity(高速)和Variety(多样)[1].TPC联合主席.Cisco高级工程师Raghunath Nambiar进一步认为大数据还面临Value(价值)和Veracity(精确)的挑战. 今天越来越多的企业认识到,大数据的掌控和分析能力将成为竞争力的核心

IBM李永辉:Watson大数据与分析平台

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 2014中国大数据技术大会首日全体会议上,IBM 大中华区系统与科技事业部杰出工程师李永辉发表了演讲"IBM Watson 大数据与分

解密大数据良药——Hadoop的十二个事实

现如今,Apache Hadoop已经无人不知无人不晓.当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据"大数据"技术的头把交椅呢. 虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解.在上周名的TDWI解决方案峰会中, TDWI研究主任兼行业分析师Philip Russom发表了"关于Hadoop的12点事实"的主题演讲,编辑在本文中将对其

Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此对:译者:贾艳成 QQ:496830205 表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方式,发送

大数据和Hadoop时代的维度建模和Kimball数据集市

维度建模已死? 在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模. 为什么需要为数据建模? 有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上远不仅如此.数据建模代表了企业业务流程的复杂度,记录了重要的业务规则和概念,并有助于规范企业的关键术语.它清晰地阐述.协助企业揭示商业过程中模糊的想法和歧义.此外,可以使用数据模型与其他利益相关者进行有效沟通.没有蓝图,不可能建造一个房子或桥梁.所以,没有数据模型这样一个蓝图,为什么要建立一个数据应用,比如数据仓库呢? 为什

大数据全流程平台在互联网金融的实现

本文讲的是大数据全流程平台在互联网金融的实现, 如果有这么一家公司,它把数据视为它的生命线,那么它对数据系统一定有非常非常多的需求,它可能会要求它们的数据系统足够灵活,可以非常方便的加减数据源,它可能需要实时查询裸数据,也有可能对这个数据进行各种各样的计算,它还有可能去提高每次访问的实时性,同时也有可能提高批量离线分析时的性能以及水平扩展能力,如果你是一个架构师,你会怎样设计这套系统呢? 大家下午好,我是来自宜信的侯松,我今天分享的主题是<大数据全流程平台在互联网金融场景下的实现和借鉴意义>,