一种基于Hadoop的作业转移调度算法

一种基于Hadoop的作业转移调度算法

邓传华,范通让,高峰

云环境服务集群中作业提交存在着非均匀分布的问题,此问题会导致某一时刻作业聚集,从而引起作业的响应时间超出用户容忍范围。针对该问题,笔者在Hadoop平台下利用二级队列技术,提出一种基于队列的作业转移调度策略(JTSA)。实验结果表明,在作业数量某一时刻剧增的情况下,对总完成时间影响不大而且能够较大幅度提高作业的响应速度,随着作业数的增加,这种效果越明显。

关键词:云计算;作业调度;Hadoop

temp_12091809485402.pdf

时间: 2024-11-06 07:40:11

一种基于Hadoop的作业转移调度算法的相关文章

一种基于Hadoop的多表链接策略

一种基于Hadoop的多表链接策略 徐剑  陈群  王卓  李战怀 Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率.为解决该问题,提出一种"替换-查询"方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果,以索引的形式参与多表链接,以此减少中间结果的I/O代价.运用缓冲池.二次排序和多线程技术对索引信息进行优化管理,加快索引查询速度.最后在TPC-H数据集上,设计了与原Hadoop的对比实验,结果表明该

基于Hadoop的房产信息服务的方法

基于Hadoop的房产信息服务的方法 俞栋辉 于明远 叶蕾 梁荣华 针对大数据信息服务的运算效率的问题,提出一种基于Hadoop的房产信息服务方法,设计并实现了一个房产信息服务原型系统.使用Hadoop搭建分布式文件系统,在该文件系统之上使用RCFile对数据进行存储管理.此外,在该系统中集成数据索引.数据压缩等技术,并提出一种SQL高效查询机制---SQL-JM,将SQL查询转变成MapReduce作业,提高查询效率.前端使用一些信息可视化技术,如Treemap,Stream Graph,折线

一种基于MapReduce的并行聚类模型

一种基于MapReduce的并行聚类模型 顾瑞春  王静宇 在对海量数据进行聚类的过程中,传统的串行模式局限性越来越明显,难以在有效时间内得出满意结果的问题,本文提出一种基于Hadoop 平台下MapReduce框架的并行聚类模型.理论和实验结果证明该模型具有接近线速的加速比,针对海量数据具有较高效率. 一种基于MapReduce的并行聚类模型

基于Hadoop的化合物生物活性分析系统

基于Hadoop的化合物生物活性分析系统 李杰辉,张亮,陈健,南蓬 通过药物虚拟筛选,发现在具有生物活性化合物过程中,存在小分子结构相似性比较计算繁杂等问题.为此,结合MapReduce模型,提出一种基于Hadoop 的并行计算模型处理方法,并通过Hadoop 工具予以实现.同时根据Hadoop 分区算法不均匀.容错功能存在重复计算等问题对该方法进行改进.实验结果表明,该方法平均加速效率达到0.91,具有较好的可靠性和扩展性. 关键词:生物活性:生物信息学:并行计算:可扩展性:数据库:Hadoo

基于Hadoop 的校园云存储系统的研究

基于Hadoop 的校园云存储系统的研究 高新成, 王莉利 针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点.通过对Hadoop 框架和MapReduce 编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop 框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop 的校园云存储系统. 关键词-Hadoop; MapReduce; 云计算; 分布式计算; 存储模型 temp_1210021608512

基于Hadoop/hive架构的网络身份识别系统的设计与实现

基于Hadoop/hive架构的网络身份识别系统的设计与实现 南京邮电大学  付倩文 本文在实际系统开发的基础上,综述了一种基于Hadoop/hive架构的网络身份识别系统设计与实现的开发方案.将各个数据源的原始数据利用MapReduce进行层层清洗后,装载入一个新建的基于事件的数据仓库.随后,利用HiveQL语言,在专业工作流控制工具的控制下,根据用户要求完成数据的分析处理工作.最后,将数据分析结果展示给用户.该系统的功能已经部分投入使用,经过实际验证,其各项性能指标均达到用户要求,有很高的实

基于Hadoop的OA期刊论文资源发现及采集方法

基于Hadoop的OA期刊论文资源发现及采集方法 燕山大学  杜宝瑞 互联网上大量OA期刊论文资源属于深层Web(DeepWeb)资源,传统的搜索引擎不能对其有效地建立索引,用户在检索时很难得到期望的OA期刊论文资源.解决该问题的一条有效途径就是实现互联网上OA期刊论文资源的集成整合,并为用户提供一个统一.透明的检索服务接口,而OA期刊论文资源的发现和采集则是其重要环节.针对海量OA期刊论文资源的处理,分布式存储和并行机制可大大提高其效率.基于Hadoop的分布式文件系统(HDFS)和并行机制(

基于Hadoop的并行共享决策树挖掘算法研究

基于Hadoop的并行共享决策树挖掘算法研究 陈湘涛    张超   韩茜 共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物.针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT).该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT).该算法采用混合数据结构,在计算分裂指标阶段使用属性袁结构,在

基于Hadoop云平台的水利普查数据挖掘系统的设计和实现

基于Hadoop云平台的水利普查数据挖掘系统的设计和实现 樊龙 万定生 顾昕辰 针对水利普查数据量大.属性维度多等特点,论文通过探讨和分析Hadoop的组成和运行机制,提出了一种基于Hadoop云平台的水利普查数据挖掘系统,介绍了系统的设计思想及架构,详细阐述系统内各个模块的功能作用.该系统利用Hadoop云平台实现了一种改进后的并行关联规则算法,既充分利用了Hadoop平台并行处理数据的能力,又降低了开发所需的成本.通过进行单机对比测试和集群测试,证明了系统具有更好的可用性和较高的挖掘效率.