基于Hadoop的广域测量系统数据处理

基于Hadoop的广域测量系统数据处理

曲朝阳; 朱莉; 张士林

为解决目前广域测量系统(WAMS)海量数据处理中存在的数据冗余、处理效率低等问题,设计并实现了一个基于Hadoop的WAMS数据处理云计算平台。首先,给出了平台的体系结构。其次,设计了基于Hadoop分布式文件系统(HDFS)存储的WAMS海量数据加载方法和利用MapReduce模型实现多个文件数据的并行抽取、转换和加载(ETL)操作流程。提出了结合MapReduce的MPApriori数据挖掘算法,用于高效地挖掘出连锁故障时各站点之间的相互影响。最后,通过对区域电网WAMS实际数据进行处理,验证了Hadoop处理海量数据的高效性。本平台适用于高性能局域网络连接的计算机集群对海量电网数据进行文件数据处理。 更多还原

关键词—云计算; 数据处理; 广域测量系统; MapReduce

temp_12092112388299.pdf

时间: 2024-11-09 01:51:49

基于Hadoop的广域测量系统数据处理的相关文章

基于Hadoop的气象云储存与数据处理应用浅析

基于Hadoop的气象云储存与数据处理应用浅析 薛胜军 周天波 周天杰 本文主要介绍 了Hado0p架构的构成 ,用实例来对Hadoop架构的MapReduce实现进行了详细的描述 .并在这个基础上开发出一个在Hadoop架构的基础上进行气象数值统计的实例 ,并根据这个 实例来对其在单节点模式 ,伪分布模式以及 完全分布模式下的运行效率进行分析. 关键词:Hadoop架构 mapreduce机制 temp_12081800463812.pdf

解读:基于Hadoop的大规模数据处理系统

Hadoop的组成部分 Hadoop是Google的MapReduce一个Java实现.MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行. Hadoop主要由HDFS.MapReduce和HBase等组成.具体的组成如下图: Hadoop的组成图 1. Hadoop HDFS是Google GFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase. HyperTable)的

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台. 一.Hadoop的应用业务分析 大数据是不能用传统的计算技术处理的大型数据集的集合.它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域. 目前主流的三大分布式计算系统分别为:Hadoop.Spark和Strom: Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统.可以轻松地集成结构化.半结构化甚至非结

基于Hadoop云计算智能家居信息处理平台

近年来,在物联网等具有海量数据需求的应用变得越来越普遍时,无论是从科学研究还是从应用开发的角度来看,掌握云计算技术已成为一种趋势.智能家居作为物联网应用的主要领域之一,自然离不开云计算.云计算的发展使用户无需关注复杂的内部工作机制.无需具备丰富的分布式系统知识及开发经验,即可实现大规模分布式系统规定部署,以及海量数据的并行处理. Hadoop是目前较为成熟和应用较为广泛的云计算架构之一.Hadoop的核心思想是分布式并行处理.Hadoop技术中的关键技术是 HDFS(分布式文件系统)和Map/R

基于Hadoop的海量小型XML数据文件处理技术的设计和实现

基于Hadoop的海量小型XML数据文件处理技术的设计和实现 西安电子科技大学 孔鑫 本文重点研究了如下内容:1)设计了专门针对海量小数据XML文件进行处理的分布式海量小型XML数据处理系统(Distributed Massive SmallXML files system,DMSX),该系统的主要思想就是将海量小数据XML文件在Hadoop系统中高效的进行处理.2)该系统通过运用生产者-消费模式,多线程并发技术,多级缓存技术等,来提高系统的整体处理能力.3)该系统通过对合并后的文件进行分段存储

为什么hadoop对你大数据处理的意义重大

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取.变形和加载(ETL)方面上的天然优势.Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储.Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送(Map)到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里. 但是对于Hadoop,特别是Hadoop分布式文件系统(HDFS)来说,大数据处理至少需要三

基于Hadoop的大数据企业前十大集合

超人气Hadoop初创公司前两名 这已经不再是什么秘密了,全球的数据正在以几何数字增长,借助这股数据浪潮在全球范围内迅速成长起来一大批Hadoop的初创型公司.作为Apache的一个开源分支Hadoop几乎已经成为了大数据的代言词.据Gartner估计,目前的Hadoop生态系统市场价值大约为77,000,000: 该研究公司预计,这一数字到2016年将迅速增加到8.13亿美元. 在Hadoop市场快速发展的大环境下,出现了大量的初创型企业来分这将近十亿美元的大馅饼. 1.Platfora 他们

[文档]基于Hadoop/Hive的web日志分析系统的设计

基于Hadoop/Hive的web日志分析系统的设计 刘永增,张晓景,李先毅 利用Hadoop.Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的. 关键词:web日志:云计算:Hadoop:Hive [下载地址]http://bbs.chinacloud.cn/showtopic-12968.aspx

基于Hadoop用户行为分析系统设计与实现

基于Hadoop用户行为分析系统设计与实现 北京交通大学  郝增勇 本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统.本系统实现了海量数据包抓取和分布式存储.TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑.本文采用了基于Hadoop的用户行为分析方法,首