基于Hadoop的调度算法研究与实现

基于Hadoop的调度算法研究与实现

西南交通大学 李曌

鉴于Hadoop内置的调度算法不能满足有效区分CPU密集型和I/O密集型两种类型的作业并且作业需要在特定的时间之前完成的需求。本文提出一种区分作业类型的基于截止时间的调度算法(Type Specific and Deadline Based Algorithm in Hadoop, TSD)。本算法包含两部分:将用户提交的作业分为CPU密集型作业和I/O密集型作业的预测机制;根据用户设置的最后完成期限而设置优先级的基于截止时间的调度算法。实验结果表明,TSD算法较以往单纯保证截止期的算法在确保作业成功率、缩短作业响应时间和提高集群的硬件利用率方面都有很大的提升。

基于Hadoop的调度算法研究与实现

时间: 2024-10-24 20:34:41

基于Hadoop的调度算法研究与实现的相关文章

基于Hadoop架构的移动终端云资源访问模式研究与应用

基于Hadoop架构的移动终端云资源访问模式研究与应用 北京工业大学  汤艳 为了在Hadoop架构上建立移动终端云资源访问模式,首先对Hadoop架构的基本组成进行深入了解,并着重分析其核心组件HDFS分布式文件系统和MapReduce分布式编程模型的工作原理.由于Hadoop和云计算在观点和关键技术上的一致性,使得Hadoop成为面向分布式的云计算平台.其次,将云资源访问模式分为数据存储策略.请求调度算法和数据响应方式三个方面进行讨论,并对Hadoop架构下常见的云资源访问模式进行分析.然后

基于Hadoop的智能调度云数据中心关键技术研究

基于Hadoop的智能调度云数据中心关键技术研究 华北电力大学   杨龑骄 本文针对智能电网调度云数据中心的三个关键问题进行了重点研究.第一.云数据中心内部网络结构.在分析对比传统网络结构算法以及最新提出的BCube.DCell数据中心网络结构算法的前提下,提出了更具有扩展性.容错性的PCube网络结构算法:第二.Hadoop云平台的副本存储策略.针对Hadoop现有副本存放策略的不足,本文研究目前学者提出HDFS改进存储策略--CoHadoop副本存储策略,并在此基础上对其智能性加以改进,依靠

基于Hadoop的海量小文件存储方法的研究

基于Hadoop的海量小文件存储方法的研究 时倩 方睿 岳亮 彭榆峰 随着科学技术的发展,各行业及领域需要处理的数据呈爆炸式增长.Hadoop是大文件存储处理的理想平台,但Hadoop在处理海量小文件时的表现并不令人满意.本文首先对HDFS的系统架构作了简要介绍,进而分析了HDFS处理海量小文件时存在的问题,最后介绍了目前国内外对该问题提出的优化方案. 基于Hadoop的海量小文件存储方法的研究

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现 东华大学  何刚 本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并

基于Hadoop的物流车辆运输监控数据管理研究

基于Hadoop的物流车辆运输监控数据管理研究 大连海事大学 胡淼 本文基于原有的一个物流车辆监控管理系统进行研究.使用全新的Hadoop集群技术来替代原有的传统数据库方式对数据进行管理.在现有的条件下搭建了一个含有3个节点的集群环境,考虑监控数据的特性,在Hadoop基础上选用了支持实时读写的分布式数据库系统HBase,重新对监控数据的数据格式进行了设计.并采用了Hadoop强大的数据并行处理编程模型MapReduce对监控数据进行分析处理.将Hadoop与传统的物流车辆运输监控系统结合起来,

一种基于Hadoop的作业转移调度算法

一种基于Hadoop的作业转移调度算法 邓传华,范通让,高峰 云环境服务集群中作业提交存在着非均匀分布的问题,此问题会导致某一时刻作业聚集,从而引起作业的响应时间超出用户容忍范围.针对该问题,笔者在Hadoop平台下利用二级队列技术,提出一种基于队列的作业转移调度策略(JTSA).实验结果表明,在作业数量某一时刻剧增的情况下,对总完成时间影响不大而且能够较大幅度提高作业的响应速度,随着作业数的增加,这种效果越明显. 关键词:云计算:作业调度:Hadoop temp_12091809485402.

基于Hadoop 的校园云存储系统的研究

基于Hadoop 的校园云存储系统的研究 高新成, 王莉利 针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点.通过对Hadoop 框架和MapReduce 编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop 框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop 的校园云存储系统. 关键词-Hadoop; MapReduce; 云计算; 分布式计算; 存储模型 temp_1210021608512

基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究 蔡斌雷 任家东 朱世伟 郭芹 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基