基于MapReduce计算模型的气象资料处理调优试验

基于MapReduce计算模型的气象资料处理调优试验

杨润芝 沈文海 肖卫青 胡开喜 杨昕 王颖 田伟

云计算技术使用分布式的计算技术实现了并行计算的计算能力和计算效率,解决了单机服务器计算能力低的问题。基于长序列历史资料所计算得出的气候标准值对于气象领域实时业务、准实时业务及科学研究中均具有重要的意义。由于长序列历史资料数据量大、运算逻辑较复杂,在传统单节点计算平台上进行整编计算耗时非常长。该文基于Hadoop分布式计算框架搭建了集群模式的云计算平台,以长序列历史资料作为源数据,基于MapReduce计算模型实现了部分整编算法,提高计算时效。同时,由于数据源本身具有文件个数多、单个文件小等特点,对数据源存储形式及数据文件大小进行改造,分别利用SequenceFile方式及文本文件合并方式对同一种场景进行计算时效对比测试,分别测试了10个文件合并、100个文件合并两种情况,使时效性得到了更大程度的提升。

基于MapReduce计算模型的气象资料处理调优试验

时间: 2024-10-06 11:07:25

基于MapReduce计算模型的气象资料处理调优试验的相关文章

《Hadoop实战第2版》——3.2节MapReduce计算模型

3.2 MapReduce计算模型 要了解MapReduce,首先需要了解MapReduce的载体是什么.在Hadoop中,用于执行MapReduce任务的机器有两个角色:一个是JobTracker,另一个是TaskTracker.JobTracker是用于管理和调度工作的,TaskTracker是用于执行工作的.一个Hadoop集群中只有一台JobTracker. 3.2.1 MapReduce Job 在Hadoop中,每个MapReduce任务都被初始化为一个Job.每个Job又可以分为两

脑机接口的MapReduce计算模型

脑机接口的MapReduce计算模型 黄志华 研究了脑机接口各项计算任务的时间关系,把脑机接口的计算过程分成了三个阶段,并把前两个阶段映射为了MapReduce机制的Map和Reduce,提出了脑机接口的MapReduce计算模型. 由于脑机接口的绝大多数计算量集中在前两个阶段,该模型能够显著减少脑机接口的计算时间. 脑机接口的MapReduce计算模型

MapReduce计算模型改进

MapReduce计算模型改进 刘长征  李威兵 文主要针对社交网站中海量图  片管理的特点,通过采用Hadoop技术来实现海量图片信息的分布式存储,并且根据社交网站中图片信息数据的管理特征,通过对Hadoop技术MapReduce模型的改进来实现海量图片云存储过程中的负载均衡,从而一方面提高了系统资源的利用率,另一方面有效提高了系统中图片信息管理的整体性能. MapReduce计算模型改进

基于MapReduce编程模型的TFIDF算法研究

基于MapReduce编程模型的TFIDF算法研究 赵伟燕  王静宇 随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要.现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比.实验证明,

基于MapReduce模型的电力数据并行化的异常检测

基于MapReduce模型的电力数据并行化的异常检测 许元斌 钟小强 王丹 李春生 提出了基于MapReduce计算模型的电力数据异常检测的并行化设计,实现了多个计算节点对海量的电力数据进行并行化的异常发现,从而快速发现存在异常的采集点. 基于MapReduce模型的电力数据并行化的异常检测

基于MapReduce的城市道路旅行时间实测计算

基于MapReduce的城市道路旅行时间实测计算 张帅 赵卓峰 丁维龙 王晓晖 城市道路旅行时间计算一直是智能交通系统中研究的核心问题之一,准确高效的旅行时间计算可以有效地帮助道路管控,减少交通拥挤.然而面对巨大而且快速增长的城市道路交通检测数据,如何将分布式计算模式融合到传统的旅行时间计算问题中已成为一个亟待解决的问题.论文基于海量道路车牌识别数据,设计了基于MapReduce编程模型的城市道路旅行时间实测计算的算法.并利用Hadoop环境进行了实现,可以支持对自定义路段集下不同时间段道路旅行

Hadoop虚拟化的性能对比和调优经验

虚拟化为Hadoop注入了前所未有的活力,从IT生产管理的角度,表现为以下几点: ·Hadoop和其他消耗不同类型资源的应用一起部署共享数据中心可以提高总体资源利用率: ·灵活的虚拟机操作使得用户可以动态的根据数据中心资源创建.扩展自己的Hadoop集群,也可以缩小当前集群.释放资源支持其他应用如果需要: ·通过与虚拟化架构提供的HA.FT集成,避免了传统Hadoop集群中的单点失败,再加之Hadoop本身的数据可靠性,为企业大数据应用提供了可靠保证. 基于这些原因,vSphere Big Da

基于MapReduce模型的排序算法优化研究

基于MapReduce模型的排序算法优化研究 金菁 MapReduce已经发展成为大数据领域标准的并行计算模型.理想情况下,一个MapReduce系统应该使参与计算的所有节点高度负载均衡,并且最小化空间使用率.CPU和I/O的使用时长以及网络传输开销.传统的算法往往只针对上述指标中的一种进行优化.在保持算法良好并行性基础上,对多个指标同时进行优化,提出了MapReduce优化算法的设计规范.针对数据处理领域最重要的排序算法进行理论分析,给出了多指标约束下的最后算法,并证明了该优化算法满足MapR

基于MapReduce模型的生物量遥感并行反演方法研究

基于MapReduce模型的生物量遥感并行反演方法研究 付天新,刘正军,闫浩文 MapReduce 模型是一种基于云计算平台下新型的并行编程模型.文中MapReduce 并行编程模型应用到遥感影像并行化处理中,以2005-2009 年5a生长季期( 5-10 月) MODIS13Q1 数据产品为数据源,对青海省三江源地区的生物量( 草地总生物量和可食草量) 进行并行化反演,研究基于该模型的生物量遥感并行反演方法.实验分析结果表明: 基于该模型的并行生物量遥感反演结果与经过精度验证的串行反演结果一