MapReduce在Hadoop平台下作业调度算法的改进和实现

MapReduce在Hadoop平台下作业调度算法的改进和实现

海南大学应用科技学院  解慧娟

该文在Hadoop实现的MapReduce架构基础上,分析了现有的三种作业调度算法,针对当前算法没有考虑服务器负载状况和数据本地性差的缺点,提出了基于可变长度队列的公平调度算法(FSVQ),该算法分析了空闲节点率,并通过采取等待的办法满足考虑数据本地性。实验证明该算法可增加服务器集群的工作效率,减少网络延迟,具有实际的应用意义。

MapReduce在Hadoop平台下作业调度算法的改进和实现

时间: 2024-10-23 01:29:53

MapReduce在Hadoop平台下作业调度算法的改进和实现的相关文章

Hadoop平台下的作业调度算法的研究

Hadoop平台下的作业调度算法的研究 郑州大学  赵晓冰 本文研究的主要内容是Hadoop上作业调度算法的改进.针对LATE算法对任务进度值估算不准以及SAMR算法不考虑备份执行节点的问题,提出了任务备份调度的改进算法(BTIS).BTIS算法通过历史记录较为准确地计算出任务的进度,找到真正的需要启动备份的慢任务:为慢任务选择启动备份的快节点时,会考虑工作节点执行任务的成功率和工作节点当前的负载情况,成功负载比高的节点将会得到执行备份的资格. 在自主搭建的Hadoop集群中验证了BTIS算法能

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

高可用Hadoop平台-实战尾声篇

1.概述 今天这篇博客就是<高可用Hadoop平台>的尾声篇了,从搭建安装到入门运行 Hadoop 版的 HelloWorld(WordCount 可以称的上是 Hadoop 版的 HelloWorld ),在到开发中需要用到的各个套件以及对套件的安装使用,在到 Hadoop 的实战,一路走来我们对在Hadoop平台下开发的基本流程应该都熟悉了.今天我们来完成在高可用Hadoop平台开发的最后一步,导出数据. 2.导出数据目的 首先,我来说明下为什么要导出数据,导出数据的目的是为了干嘛? 我们

高可用Hadoop平台-运行MapReduce程序

1.概述 最近有同学反应,如何在配置了HA的Hadoop平台运行MapReduce程序呢?对于刚步入Hadoop行业的同学,这个疑问却是会存在,其实仔细想想,如果你之前的语言功底不错的,应该会想到自动重连,自动重连也可以帮我我们解决运行MapReduce程序的问题.然后,今天我赘述的是利用Hadoop的Java API 来实现. 2.介绍 下面直接附上代码,代码中我都有注释. 2.1Java操作HDFS HA的API 代码如下: /** * */ package cn.hdfs.mr.examp

Hadoop云平台下的并行化图像处理实现

Hadoop 云平台下的并行化图像处理实现 张良将,宦飞,王杨德 近年来,云计算在IT 行业掀起了新一轮技术革新浪潮.云计算是一种新兴的计算模型,它是并行计算.分布式计算.网格计算的综合发展,以简单.透明服务的形式提供无限制的计算资源.Hadoop 实现的开源云平台提供了并行计算模型MapReduce.分布式文件系统HDFS 和分布式数据库HBase 等.随着数字图像数据量不断增长,单机模式的图像处理已逐渐不能满足用户需求.文中提出了利用Hadoop 云平台实现海量图像的并行化处理,设计了基于M

改进人工鱼群算法在Hadoop作业调度算法的应用

改进人工鱼群算法在Hadoop作业调度算法的应用 吉鹏飞 齐建东 朱文飞 作业调度算法是云计算的关键技术,也是云计算核心问题,尤其是在异构环境下资源合理分配问题成为当前研究的热点.本文在分析Hadoop缺省及改进的作业调度算法基础上,引入群智能算法,设计了基于改进人工鱼群算法的Hadoop作业调度算法.采用随机键方式对待分配任务进行编码,以任务总执行时间作为启发函数,并引入吞食行为和跳跃行为改进人工鱼群算法,以达到进一步改善作业调度算法性能的目的.实验结果表明,改进后的人工鱼群算法作业调度算法在

如何挑选合适的大数据或Hadoop平台?

文章讲的是如何挑选合适的大数据或Hadoop平台,今年,大数据在很多公司都成为相关话题.虽然没有一个标准的定义来解释何为 "大数据",但在处理大数据上,Hadoop已经成为事实上的标准.IBM.Oracle.SAP.甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop.然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品.你有多种选择来安装Hadoop的一个版本并实现大数据处理.本文讨论了不同的选择,并推荐了每种选择的适用场合

高可用Hadoop平台-答疑篇

1.概述 这篇博客不涉及到具体的编码,只是解答最近一些朋友心中的疑惑.最近,一些朋友和网友纷纷私密我,我总结了一下,疑问大致包含以下几点: 我学 Hadoop 后能从事什么岗位? 在遇到问题,我该如何去寻求解决方案? 针对以上问题,我在这里赘述下个人的经验,给即将步入 Hadoop 行业的同学做个参考. 2.我学 Hadoop 后能从事什么岗位 目前 Hadoop 相关的工作大致分为三类:应用,运维,二次开发 2.1 应用 这方面的主要工作是编写MapReduce作业,利用Hive之类的套件来进

高可用Hadoop平台-探索

1.概述 上篇<高可用Hadoop平台-启航>博客已经让我们初步了解了Hadoop平台:接下来,我们对Hadoop做进一步的探索,一步一步的揭开Hadoop的神秘面纱.下面,我们开始赘述今天的探索之路. 2.探索 在探索之前,我们来看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到单台服务器无法进行存储,单台服务器无法在限定的时间内进行处理)的可靠存储和处理. HDFS:在由普通或廉价的服务器(或PC)组成的集群上提供高可用的文件存储,通过将块保存多个副本的办法解决服务器或硬