《Hadoop MapReduce性能优化》一1.3　Hadoop MapReduce的工作原理

1.3　Hadoop MapReduce的工作原理

Hadoop MapReduce性能优化
经过一个或者多个步骤，MapReduce编程模型可以用来处理许多大规模数据问题，还可以更高效地实现MapReduce编程模型来支持使用大量机器处理大量数据的问题。在大数据的背景下，可以处理的数据规模可以大到无法在单机存储。

在典型的Hadoop MapReduce框架下，数据拆分为数据块并分发到集群内的多个节点上。MapReduce框架通过把计算逻辑转移到数据所在的机器，而不是把数据转移到其能够得以处理的机器上，从而充分利用数据的本地性优势。MapReduce应用的大多数输入数据块存放在本地节点，因而能够迅速加载，而且可以并行读取在多个节点上的多个数据块。因此，MapReduce能够达到很高的综合I/O带宽和数据处理速率。

要启动一项MapReduce作业，Hadoop会创建一个MapReduce应用的实例并把作业提交给JobTracker。然后，作业被拆分为map任务（也叫作mapper）和reduce任务（也叫作reducer）。

Hadoop启动MapReduce作业时，输入数据集拆分为大小相等的数据块，并采用心跳协议（heartbeat protocol）分配任务。每个数据块被调度到一个TaskTracker节点上并由一个map任务处理。

每项任务都在一个工作节点的可用插槽上执行，每个节点会配置固定数量的map插槽和固定数量的reduce插槽。如果所有可用插槽都被占用，挂起的任务就需要等待一些插槽被释放。

TaskTracker周期性地向JobTracker发送其状态。当TaskTracker节点空闲时，JobTracker节点会给它分配新任务。JobTracker节点在散发数据块时会考虑数据本地性，总是试图把本地数据块分配给TaskTracker节点。如果尝试失败，JobTracker节点会分配一个本地机架或者随机数据块给TaskTracker节点。

当所有的map函数都执行结束时，运行时系统会将中间键值对分组，并发起一组reduce任务来生成最终结果。接下来执行过程从shuffle阶段转向reduce阶段。在这个最终的reduce阶段，reduce函数被调用来处理中间数据并写最终输出。

用户经常使用不同的术语来表述Hadoop的map和reduce任务、子任务、阶段、子阶段。map任务包含了两个子任务（map和merge），而reduce任务仅包含一个任务。然而，shuffle和sort首先发生，并由系统完成。每个子任务又拆分为多个子阶段，如read-map、spill、merge、copy-map和reduce-write。

时间： 2024-08-01 13:34:46

《Hadoop MapReduce性能优化》一1.3　Hadoop MapReduce的工作原理

1.3　Hadoop MapReduce的工作原理

《Hadoop MapReduce性能优化》一1.3　Hadoop MapReduce的工作原理的相关文章

《Hadoop MapReduce性能优化》一2.4　用Apache Ambari监测Hadoop

《Hadoop MapReduce性能优化》一2.1　研究Hadoop参数

《Hadoop MapReduce性能优化》一导读

《Hadoop MapReduce性能优化》一2.2　Hadoop MapReduce性能指标

《Hadoop MapReduce性能优化》一1.5　小结

《Hadoop MapReduce性能优化》一2.5　小结

《Hadoop MapReduce性能优化》一1.1　MapReduce模型

《Hadoop MapReduce性能优化》一第 2 章　Hadoop参数概述

《Hadoop MapReduce性能优化》一第 1 章　了解Hadoop MapReduce

《Hadoop MapReduce性能优化》一1.3 Hadoop MapReduce的工作原理

1.3 Hadoop MapReduce的工作原理

《Hadoop MapReduce性能优化》一1.3 Hadoop MapReduce的工作原理的相关文章

《Hadoop MapReduce性能优化》一1.3　Hadoop MapReduce的工作原理

1.3　Hadoop MapReduce的工作原理

《Hadoop MapReduce性能优化》一1.3　Hadoop MapReduce的工作原理的相关文章