Hadoop 2.3.0解决了哪些问题

　　Hadoop 2.3.0已经发布了，其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助，本文从原理、架构和代码剖析三个角度来探讨这一功能。

　　主要解决了哪些问题

　　用户可以根据自己的逻辑指定一些经常被使用的数据或者高优先级任务对应的数据，让他们常驻内存而不被淘汰到磁盘。例如在Hive或 Impala构建的数据仓库应用中fact表会频繁地与其他表做JOIN，显然应该让fact常驻内存，这样DataNode在内存使用紧张的时候也不会把这些数据淘汰出去，同时也实现了对于 mixed workloads的SLA。

　　centralized cache是由NameNode统一管理的，那么HDFS client(例如MapReduce、Impala)就可以根据block被cache的分布情况去调度任务，做到memory-locality。

　　HDFS原来单纯靠DataNode的OS buffer cache，这样不但没有把block被cache的分布情况对外暴露给上层应用优化任务调度，也有可能会造成cache浪费。例如一个block的三个 replica分别存储在三个DataNote 上，有可能这个block同时被这三台DataNode的OS buffer cache，那么从HDFS的全局看就有同一个block在cache中存了三份，造成了资源浪费。

　　加快HDFS client读速度。过去NameNode处理读请求时只根据拓扑远近决定去哪个DataNode读，现在还要加入speed的因素。当HDFS client和要读取的block被cache在同一台DataNode的时候，可以通过zero-copy read直接从内存读，略过磁盘I/O、checksum校验等环节。

　　即使数据被cache的DataNode节点宕机，block移动，集群重启，cache都不会受到影响。因为cache被 NameNode统一管理并被被持久化到FSImage和EditLog，如果cache的某个block的DataNode宕机，NameNode会调度其他存储了这个replica的DataNode，把它cache到内存。

　　基本概念

　　cache directive: 表示要被cache到内存的文件或者目录。

　　cache pool: 用于管理一系列的cache directive，类似于命名空间。同时使用UNIX风格的文件读、写、执行权限管理机制。命令例子：

　　hdfs cacheadmin -addDirective -path /user/hive/warehouse/fact.db/city -pool financial -replication 1

　　以上代码表示把HDFS上的文件city(其实是Hive上的一个fact表)放到HDFS centralized cache的financial这个cache pool下，而且这个文件只需要被缓存一份。

　　系统架构与原理

　　用户可以通过hdfs cacheadmin命令行或者HDFS API显式指定把HDFS上的某个文件或者目录放到HDFS centralized cache中。这个centralized cache由分布在每个DataNode节点的off-heap内存组成，同时被NameNode统一管理。每个DataNode节点使用 mmap/mlock把存储在磁盘文件中的HDFS block映射并锁定到off-heap内存中。

　　DFSClient读取文件时向NameNode发送getBlockLocations RPC请求。NameNode会返回一个LocatedBlock列表给DFSClient，这个LocatedBlock对象里有这个block的 replica所在的DataNode和cache了这个block的DataNode。可以理解为把被cache到内存中的replica当做三副本外的一个高速的replica。

　　注：centralized cache和distributed cache的区别：

　　distributed cache将文件分发到各个DataNode结点本地磁盘保存，并且用完后并不会被立即清理的，而是由专门的一个线程根据文件大小限制和文件数目上限周期性进行清理。本质上distributed cache只做到了disk locality，而centralized cache做到了memory locality。

　　实现逻辑与代码剖析

　　HDFS centralized cache涉及到多个操作，其处理逻辑非常类似。为了简化问题，以addDirective这个操作为例说明。

　　1.NameNode处理逻辑

　　NameNode内部主要的组件如图所示。FSNamesystem里有个CacheManager是centralized cache在NameNode端的核心组件。我们都知道BlockManager负责管理分布在各个DataNode上的block replica，而CacheManager则是负责管理分布在各个DataNode上的block cache。

　　DFSClient给NameNode发送名为addCacheDirective的RPC，在ClientNamenodeProtocol.proto这个文件中定义相应的接口。

　　NameNode接收到这个RPC之后处理，首先把这个需要被缓存的Path包装成CacheDirective加入CacheManager所管理的directivesByPath中。这时对应的File/Directory并没有被cache到内存。

　　一旦CacheManager那边添加了新的CacheDirective，触发 CacheReplicationMonitor.rescan()来扫描并把需要通知DataNode做cache的block加入到 CacheReplicationMonitor. cachedBlocks映射中。这个rescan操作在NameNode启动时也会触发，同时在NameNode运行期间以固定的时间间隔触发。

　　Rescan()函数主要逻辑如下：

　　rescanCacheDirectives()->rescanFile():依次遍历每个等待被cache的directive(存储在 CacheManager. directivesByPath里)，把每个等待被cache的directive包含的block都加入到 CacheReplicationMonitor.cachedBlocks集合里面。

　　rescanCachedBlockMap():调用 CacheReplicationMonitor.addNewPendingCached()为每个等待被cache的block选择一个合适的 DataNode去cache(一般是选择这个block的三个replica所在的DataNode其中的剩余可用内存最多的一个)，加入对应的 DatanodeDescriptor的pendingCached列表。

　　2.NameNode与DataNode的RPC逻辑

　　DataNode定期向NameNode发送heartbeat RPC用于表明它还活着，同时DataNode还会向NameNode定期发送block report(默认6小时)和cache block(默认10秒)用于同步block和cache的状态。

　　NameNode会在每次处理某一DataNode的heartbeat RPC时顺便检查该DataNode的pendingCached列表是否为空，不为空的话发送DatanodeProtocol.DNA_CACHE命令给具体的DataNode去cache对应的block replica。

　　3.DataNode处理逻辑

　　DataNode内部主要的组件如图所示。DataNode启动的时候只是检查了一下dfs.datanode.max.locked.memory是否超过了OS的限制，并没有把留给Cache使用的内存空间锁定。

　　在DataNode节点上每个BlockPool对应有一个BPServiceActor线程向NameNode发送heartbeat、接收 response并处理。如果接收到来自NameNode的RPC里面的命令是DatanodeProtocol.DNA_CACHE，那么调用 FsDatasetImpl.cacheBlock()把对应的block cache到内存。

　　这个函数先是通过RPC传过来的blockId找到其对应的FsVolumeImpl (因为执行cache block操作的线程cacheExecutor是绑定在对应的FsVolumeImpl里的);然后调用 FsDatasetCache.cacheBlock()把这个block封装成MappableBlock加入到mappableBlockMap里统一管理起来，然后向对应的FsVolumeImpl.cacheExecutor线程池提交一个CachingTask异步任务(cache的过程是异步执行的)。

　　FsDatasetCache有个成员mappableBlockMap(HashMap)管理着这台DataNode的所有的 MappableBlock及其状态(caching/cached/uncaching)。目前DataNode中”哪些block被cache到内存里了”也是只保存了soft state(和NameNode的block map一样)，是DataNode向NameNode 发送heartbeat之后从NameNode那问回来的，没有持久化到DataNode本地硬盘。

　　CachingTask的逻辑：调用MappableBlock.load()方法把对应的block从DataNode本地磁盘通过mmap映射到内存中，然后通过mlock锁定这块内存空间，并对这个映射到内存的block做checksum检验其完整性。这样对于memory-locality的DFSClient就可以通过 zero-copy直接读内存中的block而不需要校验了。

　　4.DFSClient读逻辑：

　　HDFS的读主要有三种：网络I/O读 -> short circuit read -> zero-copy read。网络I/O读就是传统的HDFS读，通过DFSClient和Block所在的DataNode建立网络连接传输数据。

　　当DFSClient和它要读取的block在同一台DataNode时，DFSClient可以跨过网络I/O直接从本地磁盘读取数据，这种读取数据的方式叫short circuit read。目前HDFS实现的short circuit read是通过共享内存获取要读的block在DataNode磁盘上文件的file descriptor(因为这样比传递文件目录更安全)，然后直接用对应的file descriptor建立起本地磁盘输入流，所以目前的short circuit read也是一种zero-copy read。

　　增加了Centralized cache的HDFS的读接口并没有改变。DFSClient通过RPC获取LocatedBlock时里面多了个成员表示哪个DataNode把这个 block cache到内存里面了。如果DFSClient和该block被cache的DataNode在一起，就可以通过zero-copy read大大提升读效率。而且即使在读取的过程中该block被uncache了，那么这个读就被退化成了本地磁盘读，一样能够获取数据。

　　对上层应用的影响

　　对于HDFS上的某个目录已经被addDirective缓存起来之后，如果这个目录里新加入了文件，那么新加入的文件也会被自动缓存。这一点对于Hive/Impala式的应用非常有用。

　　HBase in-memory table：可以直接把某个HBase表的HFile放到centralized cache中，这会显著提高HBase的读性能，降低读请求延迟。

　　和Spark RDD的区别：多个RDD的之间的读写操作可能完全在内存中完成，出错就重算。HDFS centralized cache中被cache的block一定是先写到磁盘上的，然后才能显式被cache到内存。也就是说只能cache读，不能cache写。

　　目前的centralized cache不是DFSClient读了谁就会把谁cache，而是需要DFSClient显式指定要cache谁，cache多长时间，淘汰谁。目前也没有类似LRU的置换策略，如果内存不够用的时候需要client显式去淘汰对应的directive到磁盘。

　　现在还没有跟YARN整合，需要用户自己调整好留给DataNode用于cache的内存和NodeManager的内存使用。

　　参考文献

　　http://hadoop.apache.org/docs/r2.3.0/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html

　　https://issues.apache.org/jira/browse/HDFS-4949

　　作者简介

　　梁堰波，北京航空航天大学计算机硕士，美团网资深工程师，曾在法国电信、百度和VMware工作和实习过，这几年一直在折腾Hadoop/HBase/Impala和数据挖掘相关的东西，新浪微博 @DataScientist 。

时间： 2024-10-05 07:46:18

Hadoop 2.3.0解决了哪些问题的相关文章

eclipse/intellij idea 远程调试hadoop 2.6.0

很多hadoop初学者估计都我一样,由于没有足够的机器资源,只能在虚拟机里弄一个linux安装hadoop的伪分布,然后在host机上win7里使用eclipse或Intellj idea来写代码测试,那么问题来了,win7下的eclipse或intellij idea如何远程提交map/reduce任务到远程hadoop,并断点调试? 一.准备工作 1.1 在win7中,找一个目录,解压hadoop-2.6.0,本文中是D:\yangjm\Code\study\hadoop\hadoop-2.

mac OS X Yosemite 上编译hadoop 2.6.0/2.7.0及TEZ 0.5.2/0.7.0 注意事项

1.jdk 1.7问题 hadoop 2.7.0必须要求jdk 1.7.0,而oracle官网已经声明,jdk 1.7 以后不准备再提供更新了,所以趁现在还能下载,赶紧去down一个mac版吧 http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html 应该选择mac ox 64位的版本 http://download.oracle.com/otn-pub/java/jdk/7u79-b1

package-centOS 6.4+hadoop 2.5.0编译出错

问题描述 centOS 6.4+hadoop 2.5.0编译出错使用命令:mvn package -Pdist,native -DskipTests -Dtar时出现以上错误,已经卡了三天了,请教大神帮忙看下,谢谢谢解决方案 hadoop auth examples编译失败参考:http://blog.csdn.net/w13770269691/article/details/16883663/ 解决方案二: 这个完全不一样?可否帮我再看看,可以加我QQ:937038088...如能帮我解

Hadoop 2.4.0新特性介绍

在http://www.aliyun.com/zixun/aggregation/33721.html">2014年4月7日,Apache发布了Hadoop 2.4.0 .相比于hadoop 2.3.0,这个版本有了一定的改进,突出的变化可以总结为下列几点(官方文档说明): 1 支持HDFS访问控制列表(ACL,Access Control Lists) 这个特性解决了在一定情况下,文件权限访问的权限问题.其机制是基于Linux文件访问权限的特征,如果你熟悉Linux的文件访问机制,你就不

发布Apache Hadoop 2.6.0——异构存储，长时间运行的服务与滚动升级支持

发布Apache Hadoop 2.6.0--异构存储,长时间运行的服务与滚动升级支持我很高兴地宣布,在Apache的Hadoop社区已经发布的Apache Hadoop的2.6.0:http://markmail.org/message/gv75qf3orlimn6kt! 特别是,我们很高兴在此版本中相关的三个主要片:异构存储在HDFS使用SSD和内存层,支持长时间运行在YARN服务和滚动升级,将升级您的集群软件,然后重新启动升级的节点而无需关闭群集或丢失正在进行的工作.YARN作为其架构中

Caused by: org.xml.sax.SAXParseException; systemId: file:/home/hadoop/hive-0.12.0/conf/hive-site.xml; lineNumber: 5; columnNumber: 2; The markup in th

1:Hive安装的过程(Hive启动的时候报的错误),贴一下错误,和为什么错,以及解决方法: 1 [root@master bin]# ./hive 2 17/12/11 23:22:56 INFO Configuration.deprecation: mapred.input.dir.recursive is deprecated. Instead, use mapreduce.input.fileinputformat.input.dir.recursive 3 17/12/11 23:22

win7 msconfig最大内存设置为0解决方法

win7 msconfig最大内存设置为0解决方法 Windows 最大内存本来想写写前因后果的,想想如果你现在也是这个问题的话,一定没时间看完整个始末. 我就说说我的解决方法吧. 进入启动修复的命令提示符(最好是使用有管理员权限的,不过普通用户我也每试过), 使用 bcdedit 命令来查看. 可以查看到你的启动参数. 确认 truncatememory 是否为 0x10000000(我的是这个). 然后执行下面的命令 bcdedit /deletevalue {default} tr

将Spark部署到Hadoop 2.2.0上

本文介绍的是如何将http://www.aliyun.com/zixun/aggregation/14417.html">Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作. 需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4.CDH5等,将Spark运行在 Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管

Unsupported major.minor version 51.0解决办法

Unsupported major.minor version 51.0解决办法我使用的是Eclipse-jee-indigo + JDK 1.6.23环境,结果使用时出现Unsupported major.minor version 51.0错误提示,下面我来介绍Unsupported major.minor version 51.0错误的解决办法今天偶然间同事遇到一个问题,也加深了自己对eclipse中build path和java compiler compliance level

猜你喜欢

c语言-请问怎么学好《C语言程序设计教程》

问题描述请问怎么学好<C语言程序设计教程> 这本书下学期就要学了,可是看着迷迷糊糊,看不懂,有没有什么学习的捷径?什么配套的辅导书比较好?谢谢! 解决方案简单来说,就是Reading+ ...

php5中文函数手册: PHP加密解密函数，适合PHP4、PHP5

今天刚要对一个数据进行加密存储,并且能读取出来,找到两个比较好的函数做个记录:<?php//加密函数base64_encode()$str="加密";echo base64_ ...

SQL Server 开发之使用触发器自动编号

server|触发器使用SQL Server创建数字类型的字段,可以设置为自动编号.但很多时候并不能满足我们的需求,例如为学生编号时,可能要用到年级.系别等再加上流水号进行编号.下面给一个简单的例子 ...

做好三方面新站上线一天被收录不困难

大家好,我是北京美的空调维修.对于新站来说我们最担心的就是收录的问题,而对于收录问题我们多半会想方设法的让网站快速被收录,很多的朋友都抱怨说网站收录慢,其实不然,只是你没有找到方法罢了.今天我要给大家 ...

C#集合对象的属性赋值

(一)前言继<对象属性之间的相互赋值 >后,关于集合对象属性的赋值,主要可以通过循环遍历集合中的对象来进行属性间的赋值.这些可以运用于不同对象之间.相关属性类似的情况.最常见的是web ...

JavaScript对象系统的使用

使用浏览器的内部对象系统, 可实现与HTML文档进行交互.它的作用是将相关元素组织包装起来,提供给程序设计人员使用,从而减轻编程人的劳动,提高设计Web页面的能力. 一.浏览器对象层次及其主要作用除 ...

SQL SERVER数据库的基本性能

很久没有写文章了,在系统正式上线之前,DBA一般都要测试一下服务器的性能比如你有很多的服务器,有些做web服务器,有些做缓存服务器,有些做文件服务器,有些做数据库服务器做数据库服务器的那台服务器性 ...

Excel公式的显示

在Mircosoft Excel 2000中,通常当我们输入公式后,在单元格中反映的不是公式本身,而是由公式计算的结果,公式本身则在编辑栏的输入框中反映,如图 7-2的显示. 我们也可以改变设定,在单 ...

算法题之UVA 10029

问题B.糖果的存在的问题小鲍勃是玩游戏.他想赢得一些糖果 - 尽可能多. 有4根桩,每根桩包含N糖果.鲍勃是一篮子可容纳最多5糖果.每次,他把糖果放进篮筐顶部的一堆 ,如果是两个相同颜色的糖果,他 ...

用shell脚本和c语言将大写字母转成小写的代码

最近在学shell编程,在网上看到tr '[:upper:]' '[:lower:]' 可以把字符串中大写字母转换成小写字母,我就在这个的基础上写了一个脚本来自己学习学习复制代码代码如下: # ...

交换机端口安全问题有哪些

交换机端口安全总结最常用的对端口安全的理解就是可根据MAC地址来做对网络流量的控制和管理,比如MAC地址与具体的端口绑定,限制具体端口通过的MAC地址的数量,或者在具体的端口不允许某些MAC地址 ...

Windows Vista网络功能介绍

作为微软最新的操作系统,Windows Vista在网络方面有相当大的改进,这些改进不仅增强了网络性能,还极大提高了网络安全.作为个人用户,我们可以从中获得什么? 网络和共享中心这是Windows ...

小米路由设置百度公共dns怎么操作？小米路由设置dns方法步骤

小米路由设置百度公共dns怎么操作的呢?下文小编就为大家带来小米路由设置dns的方法,小米路由想要使用百度公共dns要怎么设置呢?接下来还不知道的朋友们随小编一起来学习下吧. 小米路由设置百度公共d ...

KNN算法对新上市汽车评估分析

应用IBM SPSS Statistic 的最近邻元素分析模型(NNA)对汽车厂商预研车型进行市场评估.分析新车型的技术指标是否达标,预测新车型投放市场后的预期销售额. 4.1 研究背景某汽车制造厂 ...

JVM中锁优化，偏向锁、自旋锁、锁消除、锁膨胀

本文将简单介绍HotSpot虚拟机中用到的锁优化技术. 自旋锁互斥同步对性能最大的影响是阻塞的实现,挂起线程和恢复线程的操作都需要转入内核态中完成,这些操作给系统的并发性能带来了很大的压力.而在很多 ...

30年的杭州长什么样？这张图亮了……

昨天播出的<我是未来>中阿里巴巴集团技术委员会主席王坚带着阿里云城市大脑ET "综艺首秀" 现场 "脑洞爆炸" ▼ 对未来的设想? 机器智能会带 ...

使用 Python+spaCy 进行简易自然语言处理

本文讲的是使用 Python+spaCy 进行简易自然语言处理, 原文地址:Natural Language Processing Made Easy – using SpaCy (in Python ...

移动开发-纯H5应用打开页面时花费很多流量。

问题描述纯H5应用打开页面时花费很多流量. 刚刚做的H5应用,用了muibootstrap框架,打开页面时,100k100k的加载,感觉好费流量,各位大牛有什么好的优化方案吗? 解决方案尽量少用图 ...

求根据ＣＭPP2.0协议开发的短信接口，语言为PHP

问题描述求根据CMPP2.0协议开发的短信接口,语言为PHP 很急很急很急很急很急很急很急很急Workerman 解决方案你可以看下中国电信的短信能力开发现成有 demo 只需获取口令: 电 ...

获取数据库服务器日期、时间

一.获取数据库服务器日期(格式:yyyymmdd) sql server版本 string vsSql = "select convert(varchar(10),getdate(),112 ...

随笔——初学编程，急而不慌

晚上看学生的博客.刚学几周C++的同学,水平差别已经相当大了.前两年的差别没有这么大,刚起步,投入多少直接决定了感觉是否能来.为一些同学的状态着急,初入大学的懈怠期何时才能出来?! 一位同学发来了私信 ...

Android系统移植与调试之-------&gt;如何添加一个adb wifi无线调试的功能【开发者选项】-【Wifi调试】

首先弄懂怎么设置adb wifi无线调试的功能,如下所示. 1. 手机端开启adb tcp连接端口 :/$setprop service.adb.tcp.port 5555 :/$stop adbd ...

设计-二次探测再散列二次探测再散列二次探测再散列

问题描述二次探测再散列二次探测再散列二次探测再散列数据库系统的设计,里面hash表使用二次探测再散列,不是会返回错误的结果么?那它们是怎么实现的? 解决方案怎么会呢?你散列搜索到,发现有冲突于是 ...

编译Boost——Linux

相对于Windows来,Linux下的boost编译简单至极.没有那么多的可选编译器,没有那长的编译时间,没有那么多的硬盘使用量,统一的inlude和lib目录,你熟悉命令行,不使用IDE,不需要我那 ...

将一个int类型变量（4字节），以二进制形式进行输出--showbits.c

/* *将var变量以二进制的形式进行输出, */ void showbits(int var) {//0x01020304 unsigned char *p = (unsigned char *)& ...

急求！android登录密码验证页面源代码

问题描述急求!android登录密码验证页面源代码急求!android登录密码验证页面源代码,1369793795@qq.com 解决方案 <?xml version="1.0&q ...

WP活动宣传活动现场神奇的建筑投影

[中关村在线投影机频道原创] 为巩固Windows Phone在德国粉丝心目中的地位,诺基亚举办了一场摇滚音乐节.诺基亚的战略合作伙伴,微软也是马不停蹄,随后在德国举办了一场壮观的大型3D建筑投影表演 ...

移动医疗行业正遭遇资本的“疯狂”围猎

移动医疗行业正遭遇资本的"疯狂"围猎.才刚进入2016年,就接连有两家广东医药电商宣布涉足移动医疗行业.但与以往做法不同的是,新进者不再以单一方面作为切入口,而是更大胆地垂直布局移 ...

放眼国际,阿里云将成AWS最有力竞争者?

本文讲的是放眼国际,阿里云将成AWS最有力竞争者?[IT168 评论]如今,"云计算"从被提出时抽象的概念发展到今天,已不再是单纯的供给计算能力,其已逐渐成为一个包含基础设施.运算 ...

饶·寇他科里：大数据分析的前沿技术

数据观现场报道 2016年11月17日下午,第三届世界互联网大会"大数据论坛"举行,本次论坛由中国国家互联网信息办公室和浙江省人民政府指导支持,中国科学院主办,中科学院信息工程研究 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.027 s.