问题描述
- 怎么实现hadoop的并行化
-
现在分布式的hadoop已经搭建完成,在master节点上写并行代码,在master节点上运行,就可以实现代码的并行化吗?用不用在slave节点上写代码。谢谢
解决方案
这和master、slave一点关系都没。
hadoop 的mapreduce之所以能并行,是因为数据分片的概念。数据被分片之后,每个可以由不同的节点去进行计算。
你需要做的是写你的MapReduce程序,然后配置好hadoop集群(运行作业的时候打开yarn的监控页面查看世纪的运行状态),这就可以了。
建议你先潜心看下书吧,基本概念的都没。
解决方案二:
hadoop的编程框架是map+reduce,它的并行则是通过对数据分片split,在每个分片上并行执行map,之后对map输出的中间结果进行排序再分派给reduce,
之后在reduce上的运行也是并行的,所以hadoop编程主要是找到可并行部分,然后在map或reduce函数中编写相关的并行代码既可以。
时间: 2024-10-08 12:49:50