《Hadoop集群与安全》一1.2 Hadoop发行版

1.2 Hadoop发行版

Hadoop包含了众多不同的版本。多家公司公布了各自的发行版本并且版本号也各不相同。在该领域中有不少佼佼者,我们会在之后讨论他们所提供的产品。

1.2.1 Hadoop版本

Hadoop发布了一个版本控制系统,但是它却令人感到十分困惑。在可用的稳定版本中包含了诸多分支,我们有必要了解每个分支所提供(或者没有提供)的特性。到目前为止,Hadoop的可用版本有0.23、1.0和2.0。令人感到惊奇的是,高版本始终没有包含低版本的所有特性。举例来说,0.23版本包含了NameNode高可用方案和NameNode联盟(NameNode Federation),同时提供了对于YARN框架的支持(MRv2),但是不支持传统的MapReduce框架(MRv1)。
MRv2在API层面上提供了对MRv1的兼容,但是守护进程的设置、配置以及概念却有所不同。1.0版本仍然包含了MRv1,但是缺少了NameNode高可用方案以及联盟特性,许多用户都认为它们对于产品使用非常重要。2.0版本实际上以0.23版本为基础并且拥有相同的特性集(feature set),同时它也用于未来的开发与发行。Hadoop发行版本没有采取直线发展的原因之一在于它还是一门相对新颖的技术,有些用户高度期待的特性还缺少稳定性并且有时需要在代码以及实际使用中做出巨大的变化(例如YARN)。这样就产生了不同稳定发行版本的代码分支,而最终用户会对此抱有困惑。由于本书旨在于通过规划和实施Hadoop集群构建来指导读者,因此我们会将重点放在包含可用解决方案(例如MRv1)的Hadoop版本上,同时还会介绍有关NameNode的重要可用特性。正如读者所看到的,这将缩小我们对于Hadoop发行版本的选择。

1.2.2 选择Hadoop发行版

Apache Hadoop并不是唯一可用的发行版。除此之外,还有其他公司开发了自己的免费和专有项目。读者可能已经知道了我们这么做的原因:简化Hadoop的发行过程并且将不同Hadoop分支的特性加以整合更有利于最终用户实现集群。最有名的Apache非官方版本为Cloudera Hadoop发行版(或者CDH)。

1.2.3 Cloudera Hadoop 发行版

Cloudera是一家为Hadoop提供商业支持、职业服务以及高级工具的公司。在Apache 2.0许可下,该公司的CDH发行版是免费和开源的。CDH吸引最终用户的原因在于它包含了更少的代码分支、版本数量,同时严重的错误都采取了向后移植(backport)的方法进行了修补。到目前为止,最新的CDH发行版本为CDH 4,它整合了Apache 2.0和1.0发行版的特性,其中包括NameNode高可用方案和联盟,同时提供了对于MRv1和MRv2的支持,目前没有一款发行版本包含这一特性。CDH提供的另一个重要特性是对于不同Hadoop生态系统(Hadoop ecosystem)项目的整合。分布式文件系统和MapReduce是Hadoop的核心组件,随着时间的推移,许多新项目都以这些组件为基础进行了开发。这个项目使Hadoop更加易用,缩短了开发流程并且简化了多个MapReduce作业的构建,等等。
Impala是CDH中一个备受关注的项目,它允许用户在Hadoop中运行实时查询,完全绕过MapReduce层直接访问分布式文件系统数据。将包含不同兼容性要求的生态系统组件以及不同的Apache Hadoop分支整合在一起并不是一项轻松的任务。CDH通过向用户提供核心Hadoop代码以及兼容且经过测试的生态系统项目解决了这一问题。对于用户来说这是一项巨大的优势,因此它也是目前最为流行的Hadoop发行版(根据Google Trends)。除了CDH外,Cloudera还发布了基于网页的Hadoop管理、配置和监控工具—Cloudera Manager。Cloudera Manager包含有免费版本以及付费的企业版本。

1.2.4 Hortonworks Hadoop发行版

另一个流行的Hadoop发行版是Hortonworks公司提供的Hortonworks数据平台(HDP)。同Cloudera类似,Hortonworks预先将核心代码以及Hadoop生态系统项目进行打包发行,同时提供商业的支持以及服务。到目前为止,HDP最新的稳定版本为1.2,2.0版本目前仍在测试阶段。它们分别都是以Apache Hadoop 1.0和2.0为基础的。HDP提供了CDH以及Apache发行版未包含的多种特性。Hortonworks实现了在Hadoop 1.0中的NameNode高可用方案,这点并不是通过在老版本中加入Apache Hadoop 2.0中的JournalNodes节点以及基于Quorum存储来实现的,而是采用了基于Linux高可用方案的冷故障转移集群(cold cluster failover)。HDP同样包含了HCatalog,它是为类似Pig和Hive这样的项目提供集成点的服务。Hortonworks富有创意地将Hadoop与传统的BI工具进行了集合,该领域吸引着众多Hadoop的现有用户和潜在用户。HDP包含了针对Hive的ODBC驱动,它能兼容大部分现有的BI工具。HDP的另一项独特特性是对Windows平台的支持。将Hadoop引入Windows操作系统将对平台的普及率产生重大的影响并且使得HDP在该操作系统上成为先驱,但这只是一个测试版本,目前我们并不推荐在应用阶段进行使用。在集群管理和监视方面,HDP采用了Apache Ambari,同Cloudera管理器类似,它也是一个基于网络的工具。不论在免费版本还是商业版本的HDP中它都是一个百分之百免费以及开源的工具。

1.2.5 MapR

除了Cloudera以及Hortonworks的Hadoop发行版之外,还有其他公司以Hadoop为基础发布了自己的产品。MapR是一家提供基于Hadoop平台的公司。它们的产品有各种不同的版本:M3是一款功能有限的免费产品,M5和M7是企业级别的商业产品。MapR采取了和Clouder或者Hortonworks不同的策略。它们的软件并不免费,但其中的一些特性对企业用户具有一定的吸引力。MapR平台与Apache Hadoop的主要区别在于它并没有使用分布式文件系统,而是采用了一个称为Map-FS的专有文件系统。MapR由C++实现,相比基于Java的分布式文件系统能够提供更低的延迟以及更高的并发访问(concurrency access)。在API层面上它提供了对于Hadoop的兼容,但是它们的实现方式完全不同。MapR-FS的其他特性包括将Hadoop集群作为NFS分卷使用、集群快照以及集群镜像。显然所有这些特性都依赖于MapR-FS的实现。
正如读者所看到的,现今Hadoop的发展前景并不明朗。我们有众多可以选择的选项。如果考虑到集群构建的需求就能够缩小选择的范围。Hadoop产品应该是稳定的并且经过良好的测试。其中应包括重要的组件,比如NameNode节点高可用方案以及稳定的MRv1框架。对于Hadoop管理员来说,很重要的一点是能够在多个节点上方便地安装Hadoop,而不是手工挑选所需的组件并且担心它的稳定性。这些要求会迅速将人们的注意力转移到CDH或者HDP这样的发行版上。本书剩余的部分会将重点放在CDH上,因为它是目前应用最为广泛的安装产品。CDH同样提供了丰富的特性集以及良好的稳定性。在我们编写本书时,Hadoop 2已经有了第一个正式发行版本。Hadoop 2包括了许多新的特性(比如NameNode节点高可用方案),之前只能在CDH中获得它。

时间: 2024-08-27 08:19:20

《Hadoop集群与安全》一1.2 Hadoop发行版的相关文章

Ubuntu12.04 Server下安装部署Cloudera Hadoop集群

部署环境 OS: Ubuntu12.04 Server Hadoop:CDH3U6 机器列表:namenode 192.168.71.46:datanode 192.168.71.202,192.168.71.203,192.168.71.204 安装Hadoop 添加软件源 /etc/apt/sources.list.d/cloudera-3u6.list 插入 deb  http://192.168.52.100/hadoop maverick-cdh3 contrib deb-src  h

hadoop集群间数据迁移

问题描述 hadoop集群间数据迁移 bin/hadoop distcp hftp://master:50070/user/wp hdfs://ns1/user/ hadoop集群间数据迁移org.apache.hadoop.tools.mapred.RetriableFileCopyCommand$CopyReadException: java.net.SocketTimeoutException: connect timed out

深入理解Hadoop集群和网络

云计算和Hadoop中网络是讨论得相对比较少的领域.本文原文由http://www.aliyun.com/zixun/aggregation/13533.html">Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心.云网络等.文章素材基于作者自己的研究.实验和Cloudera的培训资料. 本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系.最开始我们先学习一下Hadoop集群运作的基础原理. Hadoop里的服务器角色

window下连接hadoop集群报错

问题描述 window下连接hadoop集群报错 window下连接hadoop集群报错,已经把hadoop.dll放在window下的hadoop的bin目录了,system32也放了,还是无效,请问怎么办?? 解决方案 这是异常了吧,调用有问题.对应hadoop安装好了没 解决方案二: http://www.cnblogs.com/heyonggang/archive/2012/12/21/2827838.html 解决方案三: window下连接hadoop集群基础超详细版Window下使

一个助Hadoop集群数据快速上云工具

背景 越来越多的公司和企业希望将业务迁移到云上,同时业务数据也希望能更顺畅的迁移到云上. 当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上. 在阿里云上使用最广泛的存储服务是OSS对象存储.OSS的数据迁移工具ossimport2可以将您本地或第三方云存储服务上的文件同步到OSS上,但这个工具无法读取Hadoop文件系统的数据,无法发挥Hadoop分布式的特点.并且因为工具只支持本地文件,所以需要将HDFS上的文件先

批量部署Hadoop集群环境(1)

批量部署Hadoop集群环境(1) 1. 项目简介: 前言:云火的一塌糊涂,加上自大二就跟随一位教授做大数据项目,所以很早就产生了兴趣,随着知识的积累,虚拟机已经不能满足了,这次在服务器上以生产环境来部署Hadoop.已经搭建完毕,分享出来供大家参考. 问题:看到Hadoop部署在一些资料上很是繁琐,一些简单的部署方法只是玩具,无法满足企业的部署条件,如果一台台服务器去部署,显然是不可行. 解决:在学习及其他资料后,准备以<Apache Hadoop Yarn: Moving Beyond Ma

《Hadoop与大数据挖掘》一2.3 Hadoop集群命令

2.3 Hadoop集群命令 一般操作Hadoop集群都是使用相关的Hadoop命令,比如文件上传.下载.删除,文件夹新建.删除.拷贝等:又或者提交MapReduce任务并执行.查看MapReduce任务执行状态等.那么Hadoop集群包含的相关命令有哪些呢? 大多数Hadoop集群的相关命令类别如表2-3所示. 下面针对每种集群命令,介绍其中常用的命令,为后面的操作打下基础.

《Hadoop与大数据挖掘》——2.3 Hadoop集群命令

2.3 Hadoop集群命令 一般操作Hadoop集群都是使用相关的Hadoop命令,比如文件上传.下载.删除,文件夹新建.删除.拷贝等:又或者提交MapReduce任务并执行.查看MapReduce任务执行状态等.那么Hadoop集群包含的相关命令有哪些呢? 大多数Hadoop集群的相关命令类别如表2-3所示. 下面针对每种集群命令,介绍其中常用的命令,为后面的操作打下基础. 2.3.1 HDFS常用命令hdfs dfs 在讲解这个命令前,先对hdfs dfs.hadoop fs.hadoop

Hadoop集群datanode磁盘不均衡的解决方案

一.引言: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等.当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等. 二.问题: 因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据迁移至新的hadoop集群,而且datanode节点不能全部上线,其中还可能会出现节点上线或下线的情况,这个时候就很

淘宝Hadoop集群机器硬件配置

淘宝http://www.aliyun.com/zixun/aggregation/14119.html">Hadoop集群机器硬件配置 国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25000个节点,主要用于支持广告系统与网页搜索.国内用Hadoop的主要有百度.淘宝.腾讯.华为.中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大). 淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(