如何实现hadoop集群间通信和作业调度?

问题描述

有多个hadoop集群,各集群的hadoop版本一致,这几个hadoop集群可能分布在不同地域。1、要求能在其中一个集群的管理端看到其他集群的节点信息,比如hdfs的文件目录信息等。2、要求在其中任意节点下发MR(或hive,spark)作业,在数据所在的集群执行此MR(或hive,spark)作业,也就是在数据所在集群执行作业。请各位帮忙提供一些建议或者解决思路,谢谢啦!

解决方案

解决方案二:
考虑hadoop的federation,做适当配置修改。

时间: 2024-10-30 20:35:47

如何实现hadoop集群间通信和作业调度?的相关文章

hadoop集群间数据迁移

问题描述 hadoop集群间数据迁移 bin/hadoop distcp hftp://master:50070/user/wp hdfs://ns1/user/ hadoop集群间数据迁移org.apache.hadoop.tools.mapred.RetriableFileCopyCommand$CopyReadException: java.net.SocketTimeoutException: connect timed out

《Hadoop实战手册》一1.3 使用distcp实现集群间数据复制

1.3 使用distcp实现集群间数据复制 Hadoop分布式复制(distcp)是Hadoop集群间复制大量数据的高效工具.distcp是通过启动MapReduce实现数据复制的.使用MapReduce的好处包含可并行性.高容错性.作业恢复.日志记录.进度汇报等.Hadoop分布式复制(distcp)对在开发集群环境.研究集群环境和生产集群环境之间进行数据复制十分有用. 准备工作首先必须保证复制源和复制目的地能够互相访问. 最好关闭复制源集群map任务的推测机制,可以在配置文件mapred-s

实战CentOS系统部署Hadoop集群服务

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序:HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文

《Hadoop集群与安全》一2.2 设置NameNode

2.2 设置NameNode 在本节中,我们将一步一步对NameNode服务进行安装以及基本配置,其中包括高可用方案的构建.网络上许多指导和教程将NameNode高可用方案作为一项高级内容,而我们在最初就将重点放在NameNode高可用方案的设置上.原因是在Hadoop构建中NameNode扮演着重要的角色.从根本上说,NameNode是Hadoop集群中的一块短板.如果没有该项服务,用户就无法访问Hadoop分布式文件系统(HDFS). 我们有多种方法对NameNode高可用方案进行设置.在C

hadoop集群环境搭建

1 hadoop集群规划 1.1 共有A.B.C 三台机器; 1.2 A 作为master,B作为slave1,C作为slave2; 1.3 IP &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;A :192.168.1.103;B:192.168.1.104;C:192.168.1.101; 1.4 OS:centos6.2(64bit) 2 hadoop集群搭建步骤 2.1 创建 hadoop用户,并使该用户拥

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也将学到Hadoop管理员应该考虑到各种

hbase 学习(十三)集群间备份原理

集群建备份,它是master/slaves结构式的备份,由master推送,这样更容易跟踪现在备份到哪里了,况且region server是都有自己的WAL 和HLog日志,它就像mysql的主从备份结构一样,只有一个日志来跟踪.一个master集群可以向多个slave集群推送,收到推送的集群会覆盖它本地的edits日志. 这个备份操作是异步的,这意味着,有时候他们的连接可能是断开的,master的变化不会马上反应到slave当中.备份个格式在设计上是和mysql的statement-based

【Big Data】HADOOP集群的配置(一)

                       Hadoop集群的配置(一) 1.    实验准备 1.1    目的: 在虚拟机环境下,让同学们学会从零开始配置Hadoop-2.2集群,并尝试在真实环境下搭建集群. 1.2    主要内容: 物理机器总共4台,想配置基于物理机的Hadoop集群中包括4个节点: 1 个 Master, 3个 Salve ,节点之间局域网连接,可以相互 ping通.IP的分布如表1所示.             表1        4个节点的IP地址分配及角色 Ma

hadoop 集群常见错误解决办法

hadoop 集群常见错误解决办法: (一)启动hadoop集群时易出现的错误: 1.   错误现象:java.net.NoRouteToHostException: No route to host.    原因:master服务器上的防火墙没有关闭.    解决方法: 在master上关闭防火墙: chkconfig iptables off. 2.    错误现象:org.apache.hadoop.ipc.RPC: Server at JMN/10.22.1.203:9000 not a