CDH5: 使用parcels配置lzo

一、Parcel 部署步骤

    1 下载: 首先需要下载 Parcel。下载完成后,Parcel 将驻留在 Cloudera Manager 主机的本地目录中。 
    2 分配: Parcel 下载后,将分配到群集中的所有主机上并解压缩。 
    3 激活: 分配后,激活 Parcel 为群集重启后使用做准备。激活前可能还需要升级。

二、lzo parcels本地化

    1、到http://archive-primary.cloudera.com/gplextras/parcels/latest/下载最新lzo parcels包,根据安装hadoop集群的服务器操作系统版本下载,我使用的是rhel6.2, 所以下载的是HADOOP_LZO-0.4.15-1.gplextras.p0.64-el6.parcel

    2、同时下载manifest.json,并根据manifest.json文件中的hash值创建sha文件(注意:sha文件的名称与parcels包名一样)

    3、命令行进入Apache(如果没有安装,则需要安装)的网站根目录下,默认是/var/www/html,在此目录下创建lzo,并将这三个文件放在lzo目录中

    4、启动httpd服务,在浏览器查看,如http://ip/lzo,则结果如下:

        

    5、将发布的local parcels发布地址配置到远程 Parcel 存储库 URL地址中,见下图

        

 6、在cloud manager的parcel页面的可下载parcel中,就可以看到lzo parcels, 点击并进行下载

7、根据parcels的部署步骤,进行分配、激活。结果如下图

三、修改配置

    修改hdfs的配置

    将io.compression.codecs属性值中追加,org.apache.hadoop.io.compress.Lz4Codec,
com.hadoop.compression.lzo.LzopCodec

    修改yarn配置

    将mapreduce.application.classpath的属性值修改为:$HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,$MR2_CLASSPATH,/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/*

    将mapreduce.admin.user.env的属性值修改为:LD_LIBRARY_PATH=$HADOOP_COMMON_HOME/lib/native:$JAVA_LIBRARY_PATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/native

四、验证

    create external table lzo(id int,name string)  row format delimited fields terminated by '#' STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' location '/test';

    创建一个data.txt,内容如下:  

1#tianhe
2#gz
3#sz
4#sz
5#bx

    然后使用lzop命令对此文件压缩,然后上传到hdfs的/test目录下

    启动hive,建表并进行数据查询,结果如下:

hive> create external table lzo(id int,name string)  row format delimited fields terminated by '#' STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' location '/test';
OK
Time taken: 0.108 seconds
hive> select * from lzo where id>2;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1404206497656_0002, Tracking URL = http://hadoop01.kt:8088/proxy/application_1404206497656_0002/
Kill Command = /opt/cloudera/parcels/CDH-5.0.1-1.cdh5.0.1.p0.47/lib/hadoop/bin/hadoop job  -kill job_1404206497656_0002
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2014-07-01 17:30:27,547 Stage-1 map = 0%,  reduce = 0%
2014-07-01 17:30:37,403 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.84 sec
2014-07-01 17:30:38,469 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.84 sec
2014-07-01 17:30:39,527 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.84 sec
MapReduce Total cumulative CPU time: 2 seconds 840 msec
Ended Job = job_1404206497656_0002
MapReduce Jobs Launched: 
Job 0: Map: 1   Cumulative CPU: 2.84 sec   HDFS Read: 295 HDFS Write: 15 SUCCESS
Total MapReduce CPU Time Spent: 2 seconds 840 msec
OK
3       sz
4       sz
5       bx
Time taken: 32.803 seconds, Fetched: 3 row(s)

hive> SET hive.exec.compress.output=true;
hive> SET mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;
hive> create external table lzo2(id int,name string)  row format delimited fields terminated by '#' STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' location '/test';
OK
Time taken: 0.092 seconds
hive> insert into table lzo2 select * from lzo;
Total MapReduce jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1404206497656_0003, Tracking URL = http://hadoop01.kt:8088/proxy/application_1404206497656_0003/
Kill Command = /opt/cloudera/parcels/CDH-5.0.1-1.cdh5.0.1.p0.47/lib/hadoop/bin/hadoop job  -kill job_1404206497656_0003
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2014-07-01 17:33:47,351 Stage-1 map = 0%,  reduce = 0%
2014-07-01 17:33:57,114 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.96 sec
2014-07-01 17:33:58,170 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.96 sec
MapReduce Total cumulative CPU time: 1 seconds 960 msec
Ended Job = job_1404206497656_0003
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to: hdfs://hadoop01.kt:8020/tmp/hive-hdfs/hive_2014-07-01_17-33-22_504_966970548620625440-1/-ext-10000
Loading data to table default.lzo2
Table default.lzo2 stats: [num_partitions: 0, num_files: 2, num_rows: 0, total_size: 171, raw_data_size: 0]
MapReduce Jobs Launched: 
Job 0: Map: 1   Cumulative CPU: 1.96 sec   HDFS Read: 295 HDFS Write: 79 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 960 msec
OK
Time taken: 36.625 seconds

时间: 2024-10-29 09:31:03

CDH5: 使用parcels配置lzo的相关文章

Hadoop 2.x(YARN)中安装和配置LZO

今天尝试在Hadoop 2.x(YARN)上安装和配置LZO,遇到了很多坑,网上的资料都是基于Hadoop 1.x的,基本没有对于Hadoop 2.x上应用LZO,我在这边记录整个安装配置过程 1. 安装LZO 下载lzo 2.06版本,编译64位版本,同步到集群中 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz export CFLAGS=-m64 ./configure -enable-shared

使用yum源安装CDH Hadoop集群

本文主要是记录使用yum安装CDH Hadoop集群的过程,包括HDFS.Yarn.Hive和HBase.本文使用CDH5.4版本进行安装,故下文中的过程都是针对CDH5.4版本的. 0. 环境说明 系统环境: 操作系统:CentOs 6.6 Hadoop版本:CDH5.4 JDK版本:1.7.0_71 运行用户:root 集群各节点角色规划为: 192.168.56.121 cdh1 NameNode.ResourceManager.HBase.Hive metastore.Impala Ca

CDH5.5.0离线安装,配置spark出错

问题描述 安装CDH5.5.0最后spark部署客户端配置出错了.导致无法继续安装求高人解答 解决方案 解决方案二:你的问题解决了吗?我也是用hadoopcdh5.5.0做的,spark有问题

cdh5 ubuntu14-ubuntu14.04在安装CM5、CDH5过程中如何配置自己本地的yum源

问题描述 ubuntu14.04在安装CM5.CDH5过程中如何配置自己本地的yum源 在经过下载系统对应的parsel包后,如何进行下一步呢,具体来说比如: 1.要在本地建哪几个文件夹,每个文件夹时放什么内容: 2.CM的浏览器那里如何配置本地的yum源地址 好混乱,还请大侠帮忙 解决方案 http://www.aboutyun.com/thread-9107-1-1.html

centos中CDH5.2 Cloudera Manager installer安装配置详解

一.机器准备 1.3台主机名:server202 server203 server204 另外server201用来搭建本地yum的repos,不参与集群. 2.配置server202的ssh免密码登录到其他机器(包括自己) 3.3个机器节点的/etc/hosts加入 192.168.2.201 archive.cloudera.com 192.168.2.202 server202 192.168.2.203 server203 192.168.2.204 server204 4.其他一些相关

我现在用的是cdh5 想让其中的几个节点不执行mr任务 怎么配置

问题描述 我现在用的是cdh5manager想让其中的几个节点不执行mr任务,有一个参数mapreduce.jobtracker.hosts.exclude.filename(不知道是不是这个)但是配置怎么都不成功,求大神帮忙!感激不尽!要是知道能在clouderamanager中怎么配置那就更好了 解决方案 解决方案二:路过愿楼主好运

Flume中的HDFSSink配置

Flume中的HDFS Sink配置参数说明. 官方配置网址:http://flume.apache.org/FlumeUserGuide.html#hdfs-sink type:hdfs path:hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/flumedata/ filePrefix:默认值:FlumeData,写入hdfs的文件名前缀 fileSuffix:写入 hdfs 的文件名后缀,比如:.lzo .log等. inUsePrefix:临时文件

Cloudera Manager 5 和 CDH5 本地(离线)安装指南(Hadoop集群搭建)

转载请注明出处:http://www.wangyongkui.com/hadoop-cdh5. 系统环境 4台联想R510服务器,其中master节点4核心.8GB,其它节点双核心.4GB. 网卡:100M. 共有硬盘6TB. 网络环境内网. Centos6.5 x64(安装系统时尽量把开发包安装齐全,另master节点需要Mysql可以在安装系统时勾选). 准备工作 卸载系统自带OPEN-JDK(所有节点) 安装好的Centos系统有时会自动安装OpenJdk,用命令java -version

CDH5离线安装(最新版5.3.3内置hadoop2.5.0)

    首先给出官方的离线安装http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation_installation.html#../topics/cm_ig_install_path_c.html     由于是最新版网上上资料比较少,很多问题只能翻墙去找答案.大家只要严格按照我的步骤一步一步来就一定能安装成功,所有步骤都在公司集群上亲自实验过,其中也参考了大量网上资料,在此对