Hadoop平台下的作业调度算法的研究

Hadoop平台下的作业调度算法的研究

郑州大学  赵晓冰

本文研究的主要内容是Hadoop上作业调度算法的改进。针对LATE算法对任务进度值估算不准以及SAMR算法不考虑备份执行节点的问题,提出了任务备份调度的改进算法(BTIS)。BTIS算法通过历史记录较为准确地计算出任务的进度,找到真正的需要启动备份的慢任务;为慢任务选择启动备份的快节点时,会考虑工作节点执行任务的成功率和工作节点当前的负载情况,成功负载比高的节点将会得到执行备份的资格。 在自主搭建的Hadoop集群中验证了BTIS算法能够完成用户作业的调度执行,且缩短了作业整体的完成时间。实验中的一些数据都是经过多次执行求平均值的方法得到的。通过BTIS算法与LATE算法、SAMR算法的对比实验可以看出,BTIS算法能够更好的确定任务各阶段的比例、找到最适合启动备份的慢任务;并且备份的执行效率高,能够缩短整个作业的完成时间,提高系统资源的利用率,优化平台的性能。

Hadoop平台下的作业调度算法的研究

时间: 2024-10-01 14:07:41

Hadoop平台下的作业调度算法的研究的相关文章

MapReduce在Hadoop平台下作业调度算法的改进和实现

MapReduce在Hadoop平台下作业调度算法的改进和实现 海南大学应用科技学院  解慧娟 该文在Hadoop实现的MapReduce架构基础上,分析了现有的三种作业调度算法,针对当前算法没有考虑服务器负载状况和数据本地性差的缺点,提出了基于可变长度队列的公平调度算法(FSVQ),该算法分析了空闲节点率,并通过采取等待的办法满足考虑数据本地性.实验证明该算法可增加服务器集群的工作效率,减少网络延迟,具有实际的应用意义. MapReduce在Hadoop平台下作业调度算法的改进和实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

高可用Hadoop平台-实战尾声篇

1.概述 今天这篇博客就是<高可用Hadoop平台>的尾声篇了,从搭建安装到入门运行 Hadoop 版的 HelloWorld(WordCount 可以称的上是 Hadoop 版的 HelloWorld ),在到开发中需要用到的各个套件以及对套件的安装使用,在到 Hadoop 的实战,一路走来我们对在Hadoop平台下开发的基本流程应该都熟悉了.今天我们来完成在高可用Hadoop平台开发的最后一步,导出数据. 2.导出数据目的 首先,我来说明下为什么要导出数据,导出数据的目的是为了干嘛? 我们

改进人工鱼群算法在Hadoop作业调度算法的应用

改进人工鱼群算法在Hadoop作业调度算法的应用 吉鹏飞 齐建东 朱文飞 作业调度算法是云计算的关键技术,也是云计算核心问题,尤其是在异构环境下资源合理分配问题成为当前研究的热点.本文在分析Hadoop缺省及改进的作业调度算法基础上,引入群智能算法,设计了基于改进人工鱼群算法的Hadoop作业调度算法.采用随机键方式对待分配任务进行编码,以任务总执行时间作为启发函数,并引入吞食行为和跳跃行为改进人工鱼群算法,以达到进一步改善作业调度算法性能的目的.实验结果表明,改进后的人工鱼群算法作业调度算法在

一种短作业环境下的延迟调度算法

一种短作业环境下的延迟调度算法 刘强 董小社 朱正东 王寅峰 针对短作业场景下YARN平台中延迟调度算法基于静态时间等待阈值,不能进行合理等待的问题,提出了一种云计算环境中基于本地性资源预测的延迟调度算法(locality resource forecast delay scheduling, LRFD).该算法综合考虑短作业和资源可用性动态变化的特点进行任务调度,根据节点上任务的完成进度和作业未处理数据在集群中的分布状况预估作业的本地性资源信息,从而判断是否需要进行等待以提高系统性能,实现了对

hadoop-基于Hadoop的文本分类系统的研究和实现。那么Hadoop平台起到什么作用?意义是什么?

问题描述 基于Hadoop的文本分类系统的研究和实现.那么Hadoop平台起到什么作用?意义是什么? "基于Hadoop的文本分类系统的研究和实现"是我的课题,我对Hadoop本身不是很了解,想知道Hadoop是什么,文本分类又是要完成什么工作,然后Hadoop平台在文本分类中有何用处,不基于Hadoop平台的文本分类跟他有什么不同.能用通俗的话解释一下吗,谢谢! 解决方案 Hadoop本身是分布式的存储/计算框架.当然它在大学和科研机构中一般扮演提高bigger的作用. 解决方案二:

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现 东华大学  何刚 本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

Hadoop云平台下的并行化图像处理实现

Hadoop 云平台下的并行化图像处理实现 张良将,宦飞,王杨德 近年来,云计算在IT 行业掀起了新一轮技术革新浪潮.云计算是一种新兴的计算模型,它是并行计算.分布式计算.网格计算的综合发展,以简单.透明服务的形式提供无限制的计算资源.Hadoop 实现的开源云平台提供了并行计算模型MapReduce.分布式文件系统HDFS 和分布式数据库HBase 等.随着数字图像数据量不断增长,单机模式的图像处理已逐渐不能满足用户需求.文中提出了利用Hadoop 云平台实现海量图像的并行化处理,设计了基于M