E-MapReduce 集群环境小记

以EMR-2.0.1为例,对E-MapReduce的集群环境做个总结介绍

  • E-MapReduce环境变量

登录集群,输入env 命令即可看到环境变量。跟hadoop相关的如下

JAVA_HOME=/usr/lib/jvm/java

HADOOP_HOME=/usr/lib/hadoop-current
HADOOP_CLASSPATH=/usr/lib/hbase-current/lib/*:/usr/lib/tez-current/*:/usr/lib/tez-current/lib/*:/etc/emr/tez-conf:/usr/lib/hbase-current/lib/*:/usr/lib/tez-current/*:/usr/lib/tez-current/lib/*:/etc/emr/tez-conf:/opt/apps/extra-jars/*:/opt/apps/extra-jars/*
HADOOP_CONF_DIR=/etc/emr/hadoop-conf

SPARK_HOME=/usr/lib/spark-current
SPARK_CONF_DIR=/etc/emr/spark-conf

HBASE_HOME=/usr/lib/hbase-current
HBASE_CONF_DIR=/etc/emr/hbase-conf

HIVE_HOME=/usr/lib/hive-current
HIVE_CONF_DIR=/etc/emr/hive-conf

PIG_HOME=/usr/lib/pig-current
PIG_CONF_DIR=/etc/emr/pig-conf

TEZ_HOME=/usr/lib/tez-current
TEZ_CONF_DIR=/etc/emr/tez-conf

ZEPPELIN_HOME=/usr/lib/zeppelin-current
ZEPPELIN_CONF_DIR=/etc/emr/zeppelin-conf

HUE_HOME=/usr/lib/hue-current
HUE_CONF_DIR=/etc/emr/hue-conf

PRESTO_HOME=/usr/lib/presto-current
PRESTO_CONF_DIR=/etc/emr/presot-conf

  • E-MapReduce 应用启停
    • yarn
yarn的操作,都需要在hadoop账号下进行 su hadoop;

ResourceManager 

/usr/lib/hadoop-current/sbin/yarn-daemon.sh start|stop resourcemanager

NodeManager

/usr/lib/hadoop-current/sbin/yarn-daemon.sh start|stop nodemanager

JobHistoryServer

/usr/lib/hadoop-current/sbin/mr-jobhistory-daemon.sh start|stop historyserver

WebProxyServer

/usr/lib/hadoop-current/sbin/yarn-daemon.sh start|stop proxyserver
    • hdfs
hdfs的操作,都需要在hdfs账号下进行 su hdfs

NameNode

/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start|stop namenode

DataNode

/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start|stop datanode
    • hbase
hbase的操作,都需要在hdfs账号下进行 su hdfs

HMaster

/usr/lib/hbase-current/bin/hbase-daemon.sh start master

HRegionServer

/usr/lib/hbase-curren/bin/hbase-daemon.sh start regionserver
    • hive
hive的操作,都需要在hadoop账号下进行 su hadoop

MetaStore

HADOOP_HEAPSIZE=512 /usr/lib/hive-current/bin/hive --service metastore >/dev/null 2>&1 &

HiveServer2

HADOOP_HEAPSIZE=512 /usr/lib/hive-current/bin/hive --service hiveserver2 >/dev/null 2>&1 &
    • presto
presto 的操作,都需要在hdfs账号下进行 su hdfs

PrestoServer

master节点

/usr/lib/presto-current//bin/launcher --config=/usr/lib/presto-current/etc/worker-config.properties start|stop

worker节点

/usr/lib/presto-current//bin/launcher --config=/usr/lib/presto-current/etc/coordinator-config.properties start|stop
  • 小技巧

当需要对worker节点做统一操作时,可以写脚本命令,一键轻松解决左右问题。在EMR集群中,master到所有worker节点在hadoop和hdfs账号下是ssh打通的。

例如 需要对所有worker节点的nodemanager做停止操作,假设有n个worker节点,则可以这样做

for i in `seq 1 2`;do ssh emr-worker-$i /usr/lib/hadoop-current/sbin/yarn-daemon.sh stop nodemanager;done
时间: 2024-09-10 21:04:42

E-MapReduce 集群环境小记的相关文章

关于eclipse中运行mapreduce不是在hadoop集群环境运行而是在本地运行的问题

问题描述 关于eclipse中运行mapreduce不是在hadoop集群环境运行而是在本地运行的问题 1.我用eclipse远程连接linux上的hadoop集群,跑Mapreduce程序都可以顺利完成,结果在集群里也可以看得到. 但是,跑程序的时候,我去集群上Jps没有我正在跑的程序 而且,我到job的web界面下,也没有我的MapReduce任务记录... 是不是eclipse其实在本地跑的,没有在集群中跑,我无法想明白,还请指教 解决方案 你远程的意思指的什么,是从windows下远程连

《Hadoop MapReduce实战手册》一1.8 在分布式集群环境中设置Hadoop

1.8 在分布式集群环境中设置Hadoop Hadoop MapReduce实战手册 Hadoop的部署包括一套HDFS.一个JobTracker和多个TaskTracker.在1.5节中,我们讨论了HDFS的部署.为了设置Hadoop,我们需要配置JobTracker和TaskTracker,然后在HADOOP_ HOME/conf/slaves文件中指定TaskTracker列表.当我们启动JobTracker时,它会启动相应的TaskTracker节点列表.图1-5描述了一套完整的Hado

《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序

1.9 在分布式集群环境中运行WordCount程序 Hadoop MapReduce实战手册本节将描述如何在分布式集群中运行作业. 准备工作启动Hadoop集群. 操作步骤现在让我们在分布式的Hadoop环境中运行WordCount示例程序. 把你的Hadoop发行版目录的README.txt文件复制到HDFS文件系统的/data/input1位置,作为我们前一节中编写的WordCountMapReduce示例的输入数据. >bin/hadoopdfs -mkdir /data/ >bin/

《循序渐进学Spark 》Spark架构与集群环境

Spark架构与集群环境 本章首先介绍Spark大数据处理框架的基本概念,然后介绍Spark生态系统的主要组成部分,包括Spark SQL.Spark Streaming.MLlib和GraphX,接着简要描述了Spark的架构,便于读者认识和把握,最后描述了Spark集群环境搭建及Spark开发环境的构建方法. 1.1 Spark概述与架构 随着互联网规模的爆发式增长,不断增加的数据量要求应用程序能够延伸到更大的集群中去计算.与单台机器计算不同,集群计算引发了几个关键问题,如集群计算资源的共享

hadoop集群环境的搭建

       今天终于把hadoop集群环境给搭建起来了,能够运行单词统计的示例程序了. 集群信息如下: 主机名 Hadoop角色 Hadoop jps命令结果 Hadoop用户 Hadoop安装目录 master Master slaves NameNode DataNode JobTracker TaskTracker SecondaryNameNode 创建相同的用户的组名:hadoop. 安装hadoop-0.20.2时使用hadoop用户,并且hadoop的文件夹归属也是hadoop:

批量部署Hadoop集群环境(1)

批量部署Hadoop集群环境(1) 1. 项目简介: 前言:云火的一塌糊涂,加上自大二就跟随一位教授做大数据项目,所以很早就产生了兴趣,随着知识的积累,虚拟机已经不能满足了,这次在服务器上以生产环境来部署Hadoop.已经搭建完毕,分享出来供大家参考. 问题:看到Hadoop部署在一些资料上很是繁琐,一些简单的部署方法只是玩具,无法满足企业的部署条件,如果一台台服务器去部署,显然是不可行. 解决:在学习及其他资料后,准备以<Apache Hadoop Yarn: Moving Beyond Ma

Hadoop集群环境下的网络架构的设计与优化

Hadoop集群环境下的网络架构的设计与优化 冯力 杨凯 杨帆 大数据时代,研究大数据的IT厂商把研究重心放在优化大数据系统软件架构.优化业务逻辑.优化数据分析算法.优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化.本文介绍了思科公司在Hadoop集群环境下的网络架构设计与优化经验.大数据Hadoop环境网络特性Hadoop集群中的各节点通过网络连接起来,而且MapReduce中的以下过程会在网络中传输数据. Hadoop集群环境下的网络架构的设计与优化

Hadoop集群环境下网络架构的设计与优化

大数据时代,研究大数据的IT 厂商把研究重心放在优化大数据系统软件架构.优化业务逻辑.优化数据分析算法.优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化.本文介绍了思科公司在Hadoop 集群环境下的网络架构设计与优化经验. 大数据Hadoop环境网络特性Hadoop 集群中的各节点通过网络连接起来,而且MapReduce 中的以下过程会在网络中传输数据. (1)写数据.当向HDFS 写入初始数据或者大块数据时,会发生数据写入过程.写入的数据块需要备份到其他节点,需要在网络中

Ubuntu 14(64位) 集群环境下如何安装Hadoop 2.4

经过前边的积累,今天终于实现了集群环境下部署Hadoop,并成功运行了官方的例子. 工作如下: 两台机器: NameNode:上网小本,3G内存,机器名:YP-X100e,IP:192.168.101.130. DataNode:虚拟机,Win7下载VMWare10中虚拟Ubuntu14,虚拟机器名:ph-v370,IP:192.168.101.110 确保可互相ping通,按照机器名和IP配置各自机器的/etc/hosts文件和/etc/hostname文件,我的hosts配置内容如下 127