《MapReduce设计模式》一1.3　MapReduce和Hadoop简介

Hadoop MapReduce作业被分成一系列运行在分布式集群中的map任务和reduce任务。每个任务都工作在被指定的小的数据子集上，因此负载是遍布集群中各个节点上的。map任务主要负责数据的载入、解析、转换和过滤。每个reduce任务负责处理map任务输出结果的一个子集。然后，reducer任务从mapper任务处复制map任务的中间数据，进行分组和聚合操作。从简单的数值聚合到复杂的关联操作以及笛卡儿积操作，MapReduce通过如此简洁的架构来解决范围广泛的诸多问题，这确实让人难以置信。

MapReduce作业的输入是一系列存储在Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）上的文件。在Hadoop中，这些文件通过输入格式（input format）被分成了一系列的输入split（input split）。输入split可以看作是文件在字节层面的分块表示，每个split由一个map任务负责处理。

Hadoop中的每个map任务可以细分成4个阶段：record reader、mapper、combiner和partitioner。map任务的输出被称为中间键和中间值，会被发送到reducer做后续处理。reduce任务可以分为4个阶段：混排（shuffle）、排序（sort）、reducer和输出格式（output format）。map任务运行的节点会优先选择在数据所在的节点，因此，一般可以通过在本地机器上进行计算来减少数据的网络传输。

record reader
record reader通过输入格式将输入split解析成记录。record reader的目的是将输入数据解析成记录，但不负责解析记录本身。它将数据转换为键/值（key/value）对的形式，并传递给mapper处理。通常键是数据在文件中的位置，值是组成记录的数据块。定制record reader已经超出了本书的讨论范围，因此我们假设读者已经有合适的record reader来解析需要处理的数据。

map
在mapper中，用户定义的map代码通过处理record reader解析的每个键/值对来产生0个或多个新的键/值对结果。键/值的选择对MapReduce作业的完成效率来说非常重要。键是数据在reducer中处理时被分组的依据，值是reducer需要分析的数据。如何选择键/值对的更多细节会在本书后面的设计模式中进行详细解释。两个不同的MapReduce设计模式之间的一个重要区别就在于键/值对的语义。

combiner
combiner是一个可选的本地reducer，可以在map阶段聚合数据。combiner通过执行用户指定的来自mapper的中间键对map的中间结果做单个map范围内的聚合。例如，一个聚合的计数是每个部分计数的总和，用户可以先将每个中间结果取和，再将中间结果的和相加，从而得到最终结果。在很多情况下，这样可以明显地减少通过网络传输的数据量。在网络上发送一次（hello world，3）要比三次（hello world，1）节省更多的字节量。因为combiner的应用广泛，所以我们将在后续的模式中对其进行更深入的讲解。很多新Hadoop代码开发者可能会忽视combiner，但通常combiner可以产生特别大的性能提升，并且没有副作用。我们将在后续的章节中指出哪些模式可以通过使用combiner得到优化，以及哪些模式是不能使用combiner的。combiner不能保证执行，因此不能作为整个算法的一部分。

partitioner
partitioner的作用是将mapper（如果使用了combiner的话就是combiner）输出的键/值对拆分为分片（shard），每个reducer对应一个分片。默认情况下，partitioner先计算目标的散列值（通常为md5值）。然后，通过reducer个数执行取模运算key.hashCode()%（reducer的个数）。这种方式不仅能够随机地将整个键空间平均分发给每个reducer，同时也能确保不同mapper产生的相同键能被分发至同一个reducer。用户可以定制partitioner的默认行为，并可以使用更高级的模式，如排序。当然，一般情况下是不需要改写partitioner的。对于每个map任务，其分好区的数据最终会写入本地文件系统，等待其各自的reducer拉取。

混排和排序
reduce任务开始于混排和排序这一步骤。该步骤主要是将所有partitioner写入的输出文件拉取到运行reducer的本地机器上，然后将这些数据按照键排序并写到一个较大的数据列表中。排序的目的是将相同键的记录聚合在一起，这样其所对应的值就可以很方便地在reduce任务中进行迭代处理。这个过程完全不可定制，而且是由框架自动处理的。开发人员只能通过自定义Comparator对象来确定键如何排序和分组。

reduce
reducer将已经分好组的数据作为输入，并依次为每个键对应分组执行reduce函数。reduce函数的输入是键以及包含与该键对应的所有值的迭代器。在后文介绍的模式中，我们将看到在这个函数中有很多种处理方法。这些数据可以被聚合、过滤或以多种方式合并。当reduce函数执行完毕后，会将0个或多个键/值对发送到最后的处理步骤——输出格式。和map函数一样，因为reduce函数是业务处理逻辑的核心部分，所以不同作业的reduce函数也不相同。

输出格式
输出格式获取reduce函数输出的最终键/值对，并通过record writer将它写入到输出文件中。每条记录的键和值默认通过tab分隔，不同记录通过换行符分隔。虽然一般情况下可以通过自定义实现非常多的输出格式，但是，不管是什么格式，最终的结果都将写到HDFS上。和record reader一样，如何定制输出格式不在本书的讨论范围，因为那是对I/O的简单处理。

时间： 2024-08-27 21:04:23

《MapReduce设计模式》一1.3　MapReduce和Hadoop简介

《MapReduce设计模式》一1.3　MapReduce和Hadoop简介的相关文章

《MapReduce设计模式》一1.4　Hadoop示例：单词计数

《MapReduce设计模式》一导读

hadoop MapReduce设计模式学习笔记

《MapReduce设计模式》一1.1　设计模式

《MapReduce设计模式》一1.5　Pig和Hive

《MapReduce设计模式》一设计模式与MapReduce

《MapReduce设计模式》一1.2　MapReduce简史

《深入理解Hadoop（原书第2版）》——第2章 Hadoop中的概念 2.1 Hadoop简介

hadoop简介

《MapReduce设计模式》一1.3 MapReduce和Hadoop简介

《MapReduce设计模式》一1.3 MapReduce和Hadoop简介的相关文章

《MapReduce设计模式》一1.3　MapReduce和Hadoop简介

《MapReduce设计模式》一1.3　MapReduce和Hadoop简介的相关文章