Hadoop-调优剖析

1.概述

  其实,在从事过调优相关的工作后,会发现其实调优是一项较为复杂的工作。而对于Hadoop这样复杂且庞大的系统来说,调优更是一项巨大的工
作,由于Hadoop包含Common、HDFS、MapReduce、YARN等模块,每个模块都有可以根据自身业务进行优化的工作,本篇博客也是针对
某些模块进行调优剖析。

  在进行Hadoop调优时,不仅仅只是针对其性能调优,还是涉及到更底层的硬件,OS以及JVM等的优化,如下图所示:

  针对以上内容进行优化,均有可能对Hadoop的性能进行提升。

2.OS调优

  由于Hadoop的设计决定,其只能用于Linux操作系统作为生产环境。在实际应用场景之中,对Linux参数进行优化,可以在一定程度上提升作业的允许效率。

  • 增大网络连接上限

  在Hadoop集群当中,其内部的一些通信依赖网络,需调整Linux参数net.core.somaxconn,让其处于一个足够大的状态。

  • Swap

  在Linux系统当中,如果一个进程的内存不足,其内存中的部分数据会暂时写到磁盘上,在需要的时候,会再将磁盘中的数据动态的置换到内存当
中,这样一来,一些不必要的流程就会显现出来。通常,这会导致进程的执行效率降低。再分布式环境当中,使用MapReduce这样的计算模型时,可以通过
控制每个Job的处理数量和每个Task运行过程使用的缓冲区的大小,避免我们去使用Swap分区。通过/etc/sysctl.conf文件中的
vm.swappiness参数来达到目的。

  • 预读取

  磁盘IO性能没有CPU和内存这样发展迅猛,因而它成为OS当中一个主要的性能瓶颈。改进磁盘IO性能也是重要的优化手段之一。可以使用Linux的blockdev命令来设置预读取的缓冲区大小,以便提高Hadoop的文件读取性能。

3.JVM

  在YARN里面,可以启用JVM的重用机制来得到性能的提升。启用该功能能够让一些Task的执行效率提高2~3倍。在Hadoop2.x中,YARN的结构不同于MRV1,因而其配置有些许变化。

  YARN的默认配置会禁用该组件,即不允许重用JVM。首先,我们需要明白YARN是如何执行一个MapReduce的Job。其步骤如下所示:

  1. RM(Resource Manager)里面的AM(Application Manager)会为每个Application(一个MR的Job)在NM(NodeManager)里面申请一个Container
  2. 在申请到的Container里面启动一个Application Master,Container在YARN中分配资源的容器(内存、CPU、磁盘空间等),它启动便会对应的启动一个JVM
  3. Application Master会持续为Application包含的每一个Task(一个Map Task或者Reduce Task)向RM申请一个Container
  4. 每得到一个Container,该Container所属的NM将此Container启动
  5. 该Container执行对应的Task
  6. 对应的Task执行完毕,该Container被NM回收,而Container所拥有的JVM相应的推出

  通过上述的流程可以看出,这种情况下,每一个JVM仅只执行了一个Task,JVM并未被重用。

  因而,用户可以通过启用ubertask属性来重用JVM,在同一个Container里面一次执行多个Task,可以在mapred-site.xml中配置对应的参数即可,内容如下所示:



<property>
    <name>mapreduce.job.ubertask.enable</name>
    <value>true</value>
</property>

  如果启用该功能,会将一个Application中的所有子Task在同一个JVM里面执行,到达JVM重用的目的。该JVM负责Application中的Application Master中所用的JVM,即运行在Container当中。

  最后,我们来看当ubertask功能被启用的时候,YARN是如何执行一个application的。首先,RM里的AM会为每一个
Application在NM里面申请一个Container,然后在该container里面启动一个Application
Master。Containe启动时便会相应启动一个JVM。此时,如果ubertask功能被启用,Application
Master会在JVM中按照顺序依次在Container中执行每一个Task,这样Application
Master便不用再为每一个Task向RM去申请一个单独的Container,从而达到了重用JVM(资源重用)的目的。

4.Hadoop调优

  在对Hadoop调优时,这是一个庞大的任务,这里进行分解来看,按Hadoop的组成模块来分,比如:我们可以安装HDFS、
MapReduce、YARN等模块去优化对应的模块。若是在细分,我们可以优化其各个组件的相关配置文件,其每个模块都有对应的XML文件,在系统启动
时,会通过Configure加载到系统当中,而对应的XML文件当中,配置的参数和属性比较多,有些参数是根据业务本身去优化,如:心跳间隔、缓冲区大
小、JVM子进程最大内存、小文件的合并数、归并map输出数据占比等等。

  另外,在处理一些IO密集的应用,会在执行MapReduce时产生大量的中间输出数据(Map
Task执行阶段),而产生的这些数据对于使用者来说是并不关心的(透明化)。这里,可以思考一下,有木有一种办法能够集中处理这些输出数据。答案是肯定
的,在MapReduce中支持压缩算法,我们可以在执行这部分流程时,将中间输出数据压缩存储,这样在IO性能方面有会有明显的提升。然而,万物皆有因
果,在选择压缩算法时,需考虑压缩比和压缩效率,在一些压缩算法当中,有的压缩比非常可观,然而其压缩效率却非常低下;反之,有的压缩比较差,然其压缩效
率非常理想。因为,我们需要在压缩比和压缩效率之间做一个平衡,选择合适的算法,去平衡二者的关系。

  目前,存在许多的压缩格式,如:GZIP,ZIP,LZO,Snappy等等,测试表明其中LZO和Snappy较为可观(具体量化指标图不方便给出)。当然,这个也不是绝对的,是当下业务去测试,然后选择合适的压缩格式。

  上面提点过预读取机制,可以通过预读取机制来有效的提升磁盘IO的读性能。通过改机制提高HDFS的读性能以及MapReduce作业的执行效率。

  当然,从应用程序也是有优化的空间的,处理应用程序当中配置必要的作业参数之外,其本身的编写方式对性能也是有影响的。在执行一大批
MapReduce作业时,若是设置一个Combiner,对于提供作业的性能大有裨益。在了解MapReduce(其分两部分,其一为计算模型,其二为
运行环境,尽管Hadoop版本升级到2.x,然其计算模型不变,变得只是其运行环境。其运行环境是基于YARN的资源管理)的计算模型时,在弄明白
Combiner阶段的好处后,会发现,我们在编写相关作业时,添加Combiner可减少Map Task的中间输出结果,从而减少各个Reduce
Task的远程Copy数据量,最终带来的益处是缩短了Map和Reduce两者的执行时间。

  同样,我们在选择Hadoop的相关类型时,如Writeable。在MapReduce中,Map Task和Reduce
Task的输入和输出的数据类型均为Writable的衍生类型,其包含IntWritable、LongWriteable、
FloatWritable等。在编写相关代码时,选择合适的类型可以大大提升其性能。例如在处理整型数据之时,直接采用IntWritable比先以
Text类型读取在通过对应的方法转化为整型来的高效。

5.总结

  在对Hadoop的优化过程,是一个探索和实践的过程,有一些优化的手段和技巧也是需要平时在工作的当中去总结的,以上给出的优化点,也是有限
的,并未尽数述说,如我们也可以通过对任务的级别参数的调整,来达到有效的优化手段,对Map Task和Reduce
Task阶段的调优等。还有未言之知识点有待后续去发掘,以上只是起到点拨之效。

6.结束语

  这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!

时间: 2025-01-02 23:44:14

Hadoop-调优剖析的相关文章

Hadoop虚拟化的性能对比和调优经验

虚拟化为Hadoop注入了前所未有的活力,从IT生产管理的角度,表现为以下几点: ·Hadoop和其他消耗不同类型资源的应用一起部署共享数据中心可以提高总体资源利用率: ·灵活的虚拟机操作使得用户可以动态的根据数据中心资源创建.扩展自己的Hadoop集群,也可以缩小当前集群.释放资源支持其他应用如果需要: ·通过与虚拟化架构提供的HA.FT集成,避免了传统Hadoop集群中的单点失败,再加之Hadoop本身的数据可靠性,为企业大数据应用提供了可靠保证. 基于这些原因,vSphere Big Da

SQL Server调优系列进阶篇(深入剖析统计信息)

原文:SQL Server调优系列进阶篇(深入剖析统计信息) 前言 经过前几篇的分析,其实大体已经初窥到SQL Server统计信息的重要性了,所以本篇就要祭出这个神器了. 该篇内容会很长,坐好板凳,瓜子零食之类... 不废话,进正题 技术准备 数据库版本为SQL Server2008R2,利用微软的以前的案例库(Northwind)进行分析,部分内容也会应用微软的另一个案例库AdventureWorks 相信了解SQL Server的朋友,对这两个库都不会太陌生. 概念理解 关于SQL Ser

《Oracle高性能SQL引擎剖析:SQL优化与调优机制详解》一第一篇 执行计划

第一篇 执行计划 执行计划是指示Oracle如何获取和过滤数据.产生最终结果集,是影响SQL语句执行性能的关键因素.我们在深入了解执行计划之前,首先需要知道执行计划是在什么时候产生的,以及如何让SQL引擎为语句生成执行计划. 在深入了解执行计划之前,我们先了解SQL语句的处理执行过程.当一条语句提交到Oracle后,SQL引擎会分为三个步骤对其处理和执行:解析(Parse).执行(Execute)和获取(Fetch),分别由SQL引擎的不同组件完成.SQL引擎的组件如图1-1所示. 1. SQL

《Oracle高性能SQL引擎剖析:SQL优化与调优机制详解》一2.5 执行计划中其他信息的含义

2.5 执行计划中其他信息的含义 通过DBMS_XPLAN输出执行计划,除了计划本身外,还可以获得一些其他信息帮助我们进一步分析执行计划及语句性能. 2.5.1 查询块和对象别名 在使用DBMS_XPLAN显示执行计划时,选择'ADVANCED'预定义格式作为参数或者加入'ALIAS'控制字符串,可以在输出中看到以下内容: Query Block Name / Object Alias (identified by operation id): -------------------------

Jvm原理剖析与调优之内存结构

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://dba10g.blog.51cto.com/764602/1637276 一些不得不说的概念 JVM JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的.Java虚拟机包括一套字节码指令集.一组寄存器.一个栈.一个垃圾回收堆和一个存储方法域. JVM屏蔽了与具体操作系统平台相关的信息,使Java程序只需生成在Java虚拟

《Oracle高性能SQL引擎剖析:SQL优化与调优机制详解》一1.1 生成执行计划

1.1 生成执行计划 在Oracle中,任何一条语句在解析过程中都会生成一个唯一的数值标识,即SQL_ID.而同一条语句,在解析过程中,可能会因为执行环境的改变(例如某些优化参数被改变)而生成多个版本的游标,不同的游标会有不同的执行计划.每个游标都会按顺序赋予一个序列号,即CHILD_NUMBER,一条语句生成的第一个游标的CHILD_NUMBER为0:相应的,Oracle会为每个执行计划生成一个哈希值以作区分.而多个不同版本的游标,其执行计划可能会相同,也可能不同. 因此,我们可以知道,一条合

《Oracle高性能SQL引擎剖析:SQL优化与调优机制详解》一1.2 显示执行计划

1.2 显示执行计划 我们现在知道,有三个途径可以获取查询计划:v$sql_plan.dba_hist_sql_plan和PLAN_TABLE.如果需要读取一条SQL语句的执行计划,就需要知道该条语句的SQL_ID,如果该语句存在多个游标或者执行计划,则还需要知道游标的CHILD_NUMBER或计划的哈希值(可选).而无论我们通过哪个途径来获取执行计划,显示方式主要是两种:语句查询和包DBMS_XPLAN显示. 1.2.1 通过查询语句显示计划 通过查询语句从一些视图里读出执行计划并作格式化输出

《Storm企业级应用:实战、运维和调优》——导读

**前言**大数据是继云计算.物联网之后IT行业又一大颠覆性的技术变革.之前大数据在互联网.军事.金融.通信和物理学等领域已有不少落地案例,却因为近年来Hadoop技术的快速发展而引起业界广泛关注.可以说,Hadoop目前是大数据处理的关键技术,也是迄今为止,最成熟.应用最广泛的技术.但是Hadoop生态圈下面的数据处理几乎都是在离线状态下进行的,离线处理海量数据是比较耗时.耗力的,Storm的实时处理技术应运而生.正如曾经开发Storm的一位主要工程师所谈到的,Storm可以方便地在一个计算机

HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果.所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正. 配置优化 zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间.当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的region