Hadoop不同salve节点可以处理不一样的数据吗?(看需求解答)

问题描述

我的需求是这样的:比如有三个文件需要作为mapper输入处理:file01,file02和file03。另外还有三个文件作为配置参数存放在本地:r1,r2和r3。我的mapper程序需要对r1,r2和r3做处理并分别生成三个不同的处理实例,处理算法一样,只是参数不同,所以生成了不同的类实例如p1,p2和p3,然后我想让p1只处理file01,p2只处理file02,p3处理只file03,并分别放到三个slave节点上各自处理,互不影响,然后将计算结果通过reduce进行汇总,这样可以吗?我这样的目的是为了性能开销,因为r1,r2和r3实例都非常大,如果合并成一个实例计算太慢。以我的知识,这样的需求在Hadoop上不能实现,因为Hadoop上map输入文件似乎是不可区分的。急,求Hadoop大神帮忙提个想法,非常感谢。

解决方案

解决方案二:

解决方案三:
没人知道吗?急死我了

时间: 2024-08-01 01:36:01

Hadoop不同salve节点可以处理不一样的数据吗?(看需求解答)的相关文章

hadoop其中一个节点马上要写满了,如何设置不往该节点写数据

问题描述 hadoop其中一个节点马上要写满了,如何设置不往该节点写数据 解决方案 解决方案二:配置一个监听器,使用观察者模式,把监听器注入到服务,满足条件,监听报警,像写的地方发告警

Hadoop专业解决方案-第3章:MapReduce处理数据

前言:非常感谢团队的努力,最新的章节终于有了成果,因为自己的懒惰,好久没有最新的进展了,感谢群里兄弟的努力. 群名称是Hadoop专业解决方案群  313702010 本章主要内容: 理解MapReduce基本原理 了解MapReduce应用的执行 理解MapReduce应用的设计 截止到目前,我们已经知道Hadoop如何存储数据,但Hadoop不仅仅是一个高可用 的,规模巨大的数据存储引擎,它的另一个主要特点是可以将数据存储与处理相结合. Hadoop的核心处理模块是MapReduce,也是当

详解Hadoop系统:Hadoop架构、各部分功能及对大数据的意义

如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这种对数据的要求限制了可处理的数据种类,同时这种惯性

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

socket-求助:SSDB的主从数据同步时,即使没有任何写操作主从节点也会频繁地进行数据交互

问题描述 求助:SSDB的主从数据同步时,即使没有任何写操作主从节点也会频繁地进行数据交互 我安装了SSDB后,分别启动了master和slave, 然后通过Debug日志,发现在刚启动copy完成后,就开始不停地重复进行sync, 就对已有的数据进行循环sync, SSDB理念不是只有在write的时候,才会进行sync同步吗? 经过测试,在write的时候,也会进行sync同步,但是我是很奇怪为什么不执行write的时候,主从socket还一直在进行同步, 求大神解答. 不甚感激 解决方案

《Spark与Hadoop大数据分析》一一第1章 从宏观视角看大数据分析

第1章 从宏观视角看大数据分析 本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具.大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战.本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器(Yet Another Resource Negotiator,YARN)面临的集成挑战,以及Spa

ORACLE RAC 裸设备数据库一节点表空间扩容错误添加数据文件到本地的处理

    9月2日上午,总部CRM求助,问题是ORACLE 10.2.0.4 RAC 裸设备数据库在表空间扩容时操作失误,将数据文件错误添加成文件系统文件并且还在节点1的本地目录,导致节点2无法完成写操作,报错信息如下: Wed Sep  2 08:23:23 2015 Errors in file /oracle/app/admin/oracrm/bdump/oracrm2_dbw0_2101996.trc: ORA-01157: cannot identify/lock data file 1

显示当前Hadoop集群节点上启动的进程

#!/bin/sh #查看hadoop的运行状态 function hadoopState(){ COUNT=1 while [ ${COUNT} -le ${NUM} ] do echo "**********查看hadoop${COUNT}上hadoop的运行状态********" #连接远程主机查看运行状态 ssh -t -p 22 hadoop${COUNT} "jps" COUNT=$((${COUNT}+1)) done } echo "===

《Hadoop与大数据挖掘》——1.2 大数据平台

1.2 大数据平台 大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台.硬件平台一般如Open-Stack.Amazon云平台.阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等.而软件平台则是大家经常听到的,如Hadoop.MapReduce.Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务. Hadoo