《Hadoop集群与安全》一1.2　Hadoop发行版

1.2　Hadoop发行版

Hadoop包含了众多不同的版本。多家公司公布了各自的发行版本并且版本号也各不相同。在该领域中有不少佼佼者，我们会在之后讨论他们所提供的产品。

1.2.1　Hadoop版本

Hadoop发布了一个版本控制系统，但是它却令人感到十分困惑。在可用的稳定版本中包含了诸多分支，我们有必要了解每个分支所提供（或者没有提供）的特性。到目前为止，Hadoop的可用版本有0.23、1.0和2.0。令人感到惊奇的是，高版本始终没有包含低版本的所有特性。举例来说，0.23版本包含了NameNode高可用方案和NameNode联盟（NameNode Federation），同时提供了对于YARN框架的支持（MRv2），但是不支持传统的MapReduce框架（MRv1）。
MRv2在API层面上提供了对MRv1的兼容，但是守护进程的设置、配置以及概念却有所不同。1.0版本仍然包含了MRv1，但是缺少了NameNode高可用方案以及联盟特性，许多用户都认为它们对于产品使用非常重要。2.0版本实际上以0.23版本为基础并且拥有相同的特性集（feature set），同时它也用于未来的开发与发行。Hadoop发行版本没有采取直线发展的原因之一在于它还是一门相对新颖的技术，有些用户高度期待的特性还缺少稳定性并且有时需要在代码以及实际使用中做出巨大的变化（例如YARN）。这样就产生了不同稳定发行版本的代码分支，而最终用户会对此抱有困惑。由于本书旨在于通过规划和实施Hadoop集群构建来指导读者，因此我们会将重点放在包含可用解决方案（例如MRv1）的Hadoop版本上，同时还会介绍有关NameNode的重要可用特性。正如读者所看到的，这将缩小我们对于Hadoop发行版本的选择。

1.2.2　选择Hadoop发行版

Apache Hadoop并不是唯一可用的发行版。除此之外，还有其他公司开发了自己的免费和专有项目。读者可能已经知道了我们这么做的原因：简化Hadoop的发行过程并且将不同Hadoop分支的特性加以整合更有利于最终用户实现集群。最有名的Apache非官方版本为Cloudera Hadoop发行版（或者CDH）。

1.2.3　Cloudera Hadoop 发行版

Cloudera是一家为Hadoop提供商业支持、职业服务以及高级工具的公司。在Apache 2.0许可下，该公司的CDH发行版是免费和开源的。CDH吸引最终用户的原因在于它包含了更少的代码分支、版本数量，同时严重的错误都采取了向后移植（backport）的方法进行了修补。到目前为止，最新的CDH发行版本为CDH 4，它整合了Apache 2.0和1.0发行版的特性，其中包括NameNode高可用方案和联盟，同时提供了对于MRv1和MRv2的支持，目前没有一款发行版本包含这一特性。CDH提供的另一个重要特性是对于不同Hadoop生态系统（Hadoop ecosystem）项目的整合。分布式文件系统和MapReduce是Hadoop的核心组件，随着时间的推移，许多新项目都以这些组件为基础进行了开发。这个项目使Hadoop更加易用，缩短了开发流程并且简化了多个MapReduce作业的构建，等等。
Impala是CDH中一个备受关注的项目，它允许用户在Hadoop中运行实时查询，完全绕过MapReduce层直接访问分布式文件系统数据。将包含不同兼容性要求的生态系统组件以及不同的Apache Hadoop分支整合在一起并不是一项轻松的任务。CDH通过向用户提供核心Hadoop代码以及兼容且经过测试的生态系统项目解决了这一问题。对于用户来说这是一项巨大的优势，因此它也是目前最为流行的Hadoop发行版（根据Google Trends）。除了CDH外，Cloudera还发布了基于网页的Hadoop管理、配置和监控工具—Cloudera Manager。Cloudera Manager包含有免费版本以及付费的企业版本。

1.2.4　Hortonworks Hadoop发行版

另一个流行的Hadoop发行版是Hortonworks公司提供的Hortonworks数据平台（HDP）。同Cloudera类似，Hortonworks预先将核心代码以及Hadoop生态系统项目进行打包发行，同时提供商业的支持以及服务。到目前为止，HDP最新的稳定版本为1.2，2.0版本目前仍在测试阶段。它们分别都是以Apache Hadoop 1.0和2.0为基础的。HDP提供了CDH以及Apache发行版未包含的多种特性。Hortonworks实现了在Hadoop 1.0中的NameNode高可用方案，这点并不是通过在老版本中加入Apache Hadoop 2.0中的JournalNodes节点以及基于Quorum存储来实现的，而是采用了基于Linux高可用方案的冷故障转移集群（cold cluster failover）。HDP同样包含了HCatalog，它是为类似Pig和Hive这样的项目提供集成点的服务。Hortonworks富有创意地将Hadoop与传统的BI工具进行了集合，该领域吸引着众多Hadoop的现有用户和潜在用户。HDP包含了针对Hive的ODBC驱动，它能兼容大部分现有的BI工具。HDP的另一项独特特性是对Windows平台的支持。将Hadoop引入Windows操作系统将对平台的普及率产生重大的影响并且使得HDP在该操作系统上成为先驱，但这只是一个测试版本，目前我们并不推荐在应用阶段进行使用。在集群管理和监视方面，HDP采用了Apache Ambari，同Cloudera管理器类似，它也是一个基于网络的工具。不论在免费版本还是商业版本的HDP中它都是一个百分之百免费以及开源的工具。

1.2.5　MapR

除了Cloudera以及Hortonworks的Hadoop发行版之外，还有其他公司以Hadoop为基础发布了自己的产品。MapR是一家提供基于Hadoop平台的公司。它们的产品有各种不同的版本：M3是一款功能有限的免费产品，M5和M7是企业级别的商业产品。MapR采取了和Clouder或者Hortonworks不同的策略。它们的软件并不免费，但其中的一些特性对企业用户具有一定的吸引力。MapR平台与Apache Hadoop的主要区别在于它并没有使用分布式文件系统，而是采用了一个称为Map-FS的专有文件系统。MapR由C++实现，相比基于Java的分布式文件系统能够提供更低的延迟以及更高的并发访问（concurrency access）。在API层面上它提供了对于Hadoop的兼容，但是它们的实现方式完全不同。MapR-FS的其他特性包括将Hadoop集群作为NFS分卷使用、集群快照以及集群镜像。显然所有这些特性都依赖于MapR-FS的实现。
正如读者所看到的，现今Hadoop的发展前景并不明朗。我们有众多可以选择的选项。如果考虑到集群构建的需求就能够缩小选择的范围。Hadoop产品应该是稳定的并且经过良好的测试。其中应包括重要的组件，比如NameNode节点高可用方案以及稳定的MRv1框架。对于Hadoop管理员来说，很重要的一点是能够在多个节点上方便地安装Hadoop，而不是手工挑选所需的组件并且担心它的稳定性。这些要求会迅速将人们的注意力转移到CDH或者HDP这样的发行版上。本书剩余的部分会将重点放在CDH上，因为它是目前应用最为广泛的安装产品。CDH同样提供了丰富的特性集以及良好的稳定性。在我们编写本书时，Hadoop 2已经有了第一个正式发行版本。Hadoop 2包括了许多新的特性（比如NameNode节点高可用方案），之前只能在CDH中获得它。