基于MapReduce模型的排序算法优化研究

基于MapReduce模型的排序算法优化研究

金菁

MapReduce已经发展成为大数据领域标准的并行计算模型。理想情况下,一个MapReduce系统应该使参与计算的所有节点高度负载均衡,并且最小化空间使用率、CPU和I/O的使用时长以及网络传输开销。传统的算法往往只针对上述指标中的一种进行优化。在保持算法良好并行性基础上,对多个指标同时进行优化,提出了MapReduce优化算法的设计规范。针对数据处理领域最重要的排序算法进行理论分析,给出了多指标约束下的最后算法,并证明了该优化算法满足MapReduce优化算法规范。最后通过实验验证了优化的排序算法的有效性和效率。

基于MapReduce模型的排序算法优化研究

时间: 2024-08-01 19:22:52

基于MapReduce模型的排序算法优化研究的相关文章

基于MapReduce模型的生物量遥感并行反演方法研究

基于MapReduce模型的生物量遥感并行反演方法研究 付天新,刘正军,闫浩文 MapReduce 模型是一种基于云计算平台下新型的并行编程模型.文中MapReduce 并行编程模型应用到遥感影像并行化处理中,以2005-2009 年5a生长季期( 5-10 月) MODIS13Q1 数据产品为数据源,对青海省三江源地区的生物量( 草地总生物量和可食草量) 进行并行化反演,研究基于该模型的生物量遥感并行反演方法.实验分析结果表明: 基于该模型的并行生物量遥感反演结果与经过精度验证的串行反演结果一

MapReduce中连接负载均衡优化研究

MapReduce中连接负载均衡优化研究 翟红敏 刘国华 赵威 刘源源 翟红坤 数据分析和处理是大规模分布式数据处理应用中的重要任务.由于简单易用和具有灵活性,MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型.由于所处理的数据可能不是均匀分的,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题.数据倾斜问题严重降低了MapReduce执行连接操作的效率.针对MapReduce中连接操作的数据倾斜问题,分析了造成MapReduce连接性能瓶颈的

[文档]基于MapReduce的Skyline-join查询算法

基于MapReduce的Skyline-join查询算法 孙大烈,李建中 Skyline查询是一种非常耗时的操作,而涉及多个表的Skyline查询(Skyline-join查询)则会给数据库系统带来更多的负载,从而影响整个系统的响应时间.为解决这个问题,提出了基于Google设计的MapReduce并行处理框架的Skyline-join查询处理算法,采用分片剪枝的方法降低复杂度,进而提高查询性能.在Amazon的云计算平台(EC2)上进行的实验表明,该算法可以有效减少冗余操作和网络数据传输,基本

基于Hadoop平台的TFIDF算法并行化研究

基于Hadoop平台的TFIDF算法并行化研究 王静宇 赵伟燕 计算机工程与科学 2014年06期 基于Hadoop平台的TFIDF算法并行化研究

基于MapReduce模型的间歇性能源海量数据处理技术

基于MapReduce模型的间歇性能源海量数据处理技术 梅华威 米增强 吴广磊 针对传统间歇性能源海量数据处理技术的局限性,提出了基于MapReduce模型的间歇性能源海量数据处理技术,利用廉价的商用计算机组成集群,对海量数据进行并行处理,确保了海量数据处理的可靠性.低成本.高效能和扩展性,并对该技术的平台实现进行了论述.最后通过实验对比不同数据平台下海量数据处理的效率,验证了基于MapReduce模型的间歇性能源海量数据处理技术的高效性. 基于MapReduce模型的间歇性能源海量数据处理技术

基于MapReduce模型的电力数据并行化的异常检测

基于MapReduce模型的电力数据并行化的异常检测 许元斌 钟小强 王丹 李春生 提出了基于MapReduce计算模型的电力数据异常检测的并行化设计,实现了多个计算节点对海量的电力数据进行并行化的异常发现,从而快速发现存在异常的采集点. 基于MapReduce模型的电力数据并行化的异常检测

基于分类模型的广告推荐方法研究

基于分类模型的广告推荐方法研究 北京交通大学  李哲 论文的主要工作如下.第一,我们结合Hadoop平台实现了针对某互联网公司提供的广告日志数据的可视化统计与分析工具,利用该工具对数据进行分析并发现了特征之间和广告之间的依赖关系.第二,提出了利用非广告特征和广告特征依赖关系的单标记分类模型的一种改进方法,其利用了互信息来选择组合特征从而加入特征之间的依赖关系.第三,提出了利用广告之间依赖关系的多标记分类模型改进方法,其通过一种启发式的方法来构建分类器链从而更好地利用广告之间的依赖关系.最后,在H

硅谷杂志:基于HMM模型的入侵检测技术研究

[硅谷网12月10日文] 据<硅谷>杂志2012年第18期刊文称,入侵检测技术作为计算机安全技术的一个重要组成部分,已经受到越来越广泛地关注.作为一种新的动态安全防御技术,它是继防火墙之后的第二道安全防线.主要研究当前入侵检测一直无法很好解决的两个问题,即 复杂网络攻击的检测和网络在入侵攻击下的风险评估. 0前言 自上世纪90年代以来,基于TCP/IP的互联网得到了飞速的发展,信息的传递和处理超越了时间和空间的限制,网络信息化已成为不可阻挡的趋势,但其安全性也受到越来越多的挑战.于是人们针对网

基于嵌入式多处理器的轻量级MapReduce模型研究

基于嵌入式多处理器的轻量级MapReduce模型研究 随着近年来云计算的快速发展以及多核处理器核心数的快速增长,并行开发技术的应用也越来越普遍.各种并行开发技术如MPI.OpenMP等已经非常成熟的应用于各个领域,并且在Google的MapReduce编程模型的带动下出现了很多基于MapReduce模型的开发框架,如Phoenix.Metis.Hadoop等,但是Phoenix和Metis是基于共享内存架构实现的,不能用于分布式集群,而Hadoop集群部署在嵌入式环境下的执行效率不高.因此目前还