前 言
Hadoop实战手册
本书能帮助开发者更方便地使用Hadoop,从而熟练地解决问题。读者会更加熟悉Hadoop相关的各种工具从而进行最佳的实践。
本书指导读者使用各种工具解决各种问题。这些工具包括:Apache Hive、Pig、MapReduce、Mahout、Giraph、HDFS、Accumulo、Redis以及Ganglia。
本书提供了深入的解释以及代码实例。每章的内容包含一组问题集的描述,并对面临的技术挑战提出了解决方案,最后完整地解决了这些问题。每节将单一问题分解成不同的步骤,这样更容易按照步骤执行相关操作。本书覆盖的内容包括:关于HDFS的导入、导出数据,使用Giraph进行图分析,使用Hive、Pig以及MapReduce进行批量数据分析,使用Mahout进行机器学习方法,调试并修改MapReduce作业的错误,使用Apache Accumulo对结构数据进行列存储与检索。
本书的示例中涉及的Hadoop技术同样也可以应用于读者自己所面对的问题。
目 录
第1章 Hadoop分布式文件系统——导入和导出数据
1.1 介绍
1.2 使用Hadoop shell命令导入和导出数据到HDFS
1.3 使用distcp实现集群间数据复制
1.4 使用Sqoop从MySQL数据库导入数据到HDFS
1.5 使用Sqoop从HDFS导出数据到MySQL
1.6 配置Sqoop以支持SQL Server
1.7 从HDFS导出数据到MongoDB
1.8从MongoDB导入数据到HDFS
1.9使用Pig从HDFS导出数据到MongoDB
1.10 在Greenplum外部表中使用HDFS
1.11利用Flume加载数据到HDFS中
第2章HDFS
第3章 抽取和转换数据
第4章使用Hive、Pig和MapReduce处理常见的任务
第5章高级连接操作
第6章大数据分析
第7章高级大数据分析
第8章调试
第9章系统管理
第10章使用Apache Accumulo进行持久化