前 言
Hadoop MapReduce实战手册
本书目标是帮助读者学会处理大型的复杂数据集。本书虽从简单的例子开始,但仍然可以看到深入的内容。这是一本简单的一站式指南,传授如何完成复杂的事情。它以一种简单而直接的方式呈现了90个攻略,给出了一步步的指导和真实环境的应用示例。
本产品包括在Apache软件基金会(http://www.apache.org/)开发的软件。
本书涵盖的内容
第1章解释了如何以单点模式以及集群模式安装和运行Hadoop。
第2章介绍了一套高级的HDFS操作,在处理大规模数据时,无论是用Hadoop MapReduce还是用非MapReduce用例,这些操作都很有用。
第3章解释了如何改变Hadoop部署的配置和安全性,以及如何调试。
第4章介绍了几种高级的Hadoop MapReduce特性,这些特性将有助于你开发高度定制化的、高效的MapReduce应用程序。
第5章介绍了其他与Hadoop相关的项目,如HBase、Hive和Pig。
第6章解释了如何使用Hadoop来计算基本的统计分析信息。
第7章介绍几种可以与Apache Hadoop协同使用的工具和技术,让你可以进行大规模的搜索和索引。
第8章介绍了如果使用Hadoop实现复杂的算法,如聚类、推荐和关系发现。
第9章解释了如何使用Hadoop和Mahout处理海量文本数据集,以及如何使用Hadoop实现数据预处理和加载操作。
第10章解释了如何使用亚马逊弹性MapReduce(Elastic MapReduce,EMR)和Apache Whirr在云基础设施上部署和执行Hadoop MapReduce、Pig、Hive和HBase计算。
目 录
第1章 搭建Hadoop并在集群中运行
1.1 简介
1.2 在你的机器上安装Hadoop
1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它
1.4 给WordCount MapReduce程序增加combiner步骤
1.5 安装HDFS
1.6 使用HDFS监控UI
1.7 HDFS的基本命令行文件操作
1.8 在分布式集群环境中设置Hadoop
1.9 在分布式集群环境中运行WordCount程序
1.10 使用MapReduce监控UI
第2章 HDFS进阶
2.1 简介
2.2 HDFS基准测试
2.3 添加一个新的DataNode
2.4 DataNode下架
2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况
2.6 设置HDFS块大小
2.7 设置文件冗余因子
2.8 使用HDFS的Java API
2.9 使用HDFS的C API(libhdfs)
2.10 挂载HDFS(Fuse-DFS)
2.11 在HDFS中合并文件
第3章 高级Hadoop MapReduce运维
第4章 开发复杂的Hadoop MapReduce应用程序
第5章 Hadoop生态系统
第6章 分析
第7章 搜索和索引
第8章 聚类、推荐和关系发现
第9章 海量文本数据处理
第10章 云端部署——在云上使用Hadoop