Hadoop生态系统工具指南

Hadoop工具生态系统生长迅速，以下是IT经理网整理的最新Hadoop工具资源，供IT经理日常参考，欢迎读者来信或留言补充。

Hadoop

Apache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。

网址：hadoop.apache.org

HDFS

分布式文件系统提供高速的应用数据访问。

网址：hadoop.apache.org/hdfs/

MapReduce

在计算机集群上进行大数据分布式处理的软件框架。

亚马逊Elastic MapReduce

亚马逊Elastic MapReduce是一种web服务，能让企业、研究人员、数据分析师和开发者低成本快速处理海量数据。该服务是托管于亚马逊弹性云（EC2）和亚马逊S3存储云上的web大规模基础架构上的Hadoop框架。

网址：aws.amazon.com/elasticmapreduce/

Cloudera Hadoop发行版（CDH）

Cloudera的Hadoop发行版（CDH）为基于Hadoop的数据管理平台树立了新的标杆。

网址：cloudera.com/hadoop

ZooKeeper

针对分布式应用的高性能协调服务。ZooKeeper为配置信息、命名提供集中化管理服务，支持分布式同步，并提供群组服务。

网址：hadoop.apache.org/zookeeper/

HBase

可扩展的分布式数据库，支持大表（big table）的结构化数据存储。

网址：hbase.apache.org

Avro

数据序列化系统。与Thrift和Protocolbuffers类似。

avro.apache.org

Sqoop

Sqoop（SQL-to-Hadoop），是命令行工具，有以下功能：

- ● 将单独的表或者整个数据库导入HDFS文件
- ● 通用Java库支持与导入数据的互动
- ● 支持将SQL数据库直接导入你的Hive数据仓库

网址：cloudera.com/downloads/sqoop/

Flume

Flume是一个分布式高可靠的大数据传输服务。

网址：archive.cloudera.com/cdh/3/flume/

Hive

Hive是基于Hadoop的数据仓库基础架构，提供的工具能进行简便的数据汇总、ad-hoc查询，以及对存储在Hadoop文件中的大数据集的分析。Hive提供一种简单易用的查询语言——Hive QL，该语言基于SQL，这意味着那些对SQL熟悉的用户可以像使用SQL数据库一样查询大数据。Hive QL还云寻传统的map/reduce程序员插入他们自己的mappers和reducers，进行更为复杂的分析。

网址：hive.apache.org

Pig

Pig是一种高阶数据流语言和并行计算的执行框架。Apache Pig是一个大数据集分析平台，提供了一种表达数据分析程序的高阶语言，以及评估这些程序的基础架构。Pig程序的最大优点是其架构能为底层并行化进行调整，从而能处理非常大规模的数据集。

网址：pig.apache.org

Oozie

Oozie 是一个开源的工作流和协作服务引擎，为管理Apache hadoop数据处理任务提供工作流/协作服务。Oozie 是可扩展的、可伸缩的面向数据的服务，运行在Hadoop 平台上，协调Hadoop上运行的不同任务（包括HDFS,Pig和MapReduce）。

Oozie 包括一个离线的Hadoop处理的工作流解决方案，以及一个查询处理 API。

网址：yahoo.github.com/oozie

Cascading

Cascading是一个查询API和查询计划器，被用于定义和执行Hadoop集群上运行的复杂、可自由扩展、可容错的数据处理工作流。

网址：cascading.org

Cascalog