基于Hadoop的海量小型XML数据文件处理技术的设计和实现

基于Hadoop的海量小型XML数据文件处理技术的设计和实现

西安电子科技大学 孔鑫

本文重点研究了如下内容:1)设计了专门针对海量小数据XML文件进行处理的分布式海量小型XML数据处理系统(Distributed Massive SmallXML files system,DMSX),该系统的主要思想就是将海量小数据XML文件在Hadoop系统中高效的进行处理。2)该系统通过运用生产者-消费模式,多线程并发技术,多级缓存技术等,来提高系统的整体处理能力。3)该系统通过对合并后的文件进行分段存储,在不影响工作模块的同时,高效利用网络资源,与数据处理模块并发进行,从而使系统在处理海量小数据XML时的效率得到提高。 本文对该系统的各个功能模块进行了详细的阐述,并对系统的高效性进行了实验分析。后期通过实际部署、多次测试、平均求值的测试方法,验证了本系统的性能。证明了文中所提出的方法可以有效的提高系统资源利用率和系统响应速度,一定程度上解决了目前Hadoop在处理海量小数据XML文件时的不足。

基于Hadoop的海量小型XML数据文件处理技术的设计和实现

时间: 2024-10-26 05:51:02

基于Hadoop的海量小型XML数据文件处理技术的设计和实现的相关文章

基于Hadoop的智能调度云数据中心关键技术研究

基于Hadoop的智能调度云数据中心关键技术研究 华北电力大学   杨龑骄 本文针对智能电网调度云数据中心的三个关键问题进行了重点研究.第一.云数据中心内部网络结构.在分析对比传统网络结构算法以及最新提出的BCube.DCell数据中心网络结构算法的前提下,提出了更具有扩展性.容错性的PCube网络结构算法:第二.Hadoop云平台的副本存储策略.针对Hadoop现有副本存放策略的不足,本文研究目前学者提出HDFS改进存储策略--CoHadoop副本存储策略,并在此基础上对其智能性加以改进,依靠

基于Hadoop的海量小文件存储方法的研究

基于Hadoop的海量小文件存储方法的研究 时倩 方睿 岳亮 彭榆峰 随着科学技术的发展,各行业及领域需要处理的数据呈爆炸式增长.Hadoop是大文件存储处理的理想平台,但Hadoop在处理海量小文件时的表现并不令人满意.本文首先对HDFS的系统架构作了简要介绍,进而分析了HDFS处理海量小文件时存在的问题,最后介绍了目前国内外对该问题提出的优化方案. 基于Hadoop的海量小文件存储方法的研究

基于Hadoop的海量医疗数据存储平台的研究

基于Hadoop的海量医疗数据存储平台的研究 王恒 随着医疗信息化又好又快的发展,医疗数据迅速的涌现出来.然而,现存的医疗数据 存储平台不能够满足日益增长的海量数据的需求.因此,研究并开发一个有效的存储平台来管理和存储这些海量医疗数据显得尤为的重要.云计算为目前所面临的存储分析医疗数据的困境,提供了一种低成本.容错性强.高可扩展性和可用性的解决方案.基于分布式计算技术,本文提出了一种新的管理和存储海量医疗数据的方法.它提供了一种基于Hadoop,使用Linux集群技术的海量数据存储的解决方案.大

XML基础之 DataSet加载XML数据文件

xml|加载|数据 在开发系统时,经常会有通过Code获取其Description,例如由错误号码获取错误信息. 这些错误信息可以存放到XML数据文件中,通过DataSet对象进行读取. 下面是读取的函数:   public string GetError(int ErrorId)  {   //在进行错误显示时,可以将错误号对应的文本描述放到一个XML   //文件中.这是支持多语言的一种通用方法.   //本示例从一个xml文件中取出数据,并获取指定ID号的错误描述.    string f

通过实例学习ASP读取XML数据文件的方法

xml|数据 通过实例学习ASP读取XML数据文件的方法,希望大家能很快掌握,提供两段代码. 分别保存下面两段代码,一个保存为readxml.asp另一个保存为test.xml,放在同一个目录下面,调试程序即可,在程序里面我已经做了解释,读取代码可以做成一个readxml的函数,通过使用输入的参数而读取xml不同数据记录的不同的值.这段程序的改编来自互联网,有什么出入请见谅. readxml.asp <%dim xml,objNode,objAtr,nCntChd,nCntAtrSet xml=

基于Hadoop的多星表存储与交叉证认的设计与实现

基于Hadoop的多星表存储与交叉证认的设计与实现 山东大学 张夏旭 面对海量天文数据,如何高效的存储和对多星表进行交叉证认显得尤为重要.海量天文数据处理必须要使用分布式.并行计算等大数据处理技术才能有效解决.本文对利用Hadoop处理海量天文数据进行了研究,主要工作分为以下三部分: 1.利用Hadoop的HBase组件,构建对不同星表数据的有效存储,提高集群磁盘利用率和星表信息查询效率. 2.在对HEALPix和HTM两种伪二维球面索引方法进行研究的基础上,结合Hadoop实现多个星表之间高效

ASP读取XML数据文件的方法

xml|数据 分别保存下面两段代码,一个保存为readxml.asp另一个保存为test.xml,放在同一个目录下面,调试程序即可,在程序里面我已经做了解释,读取代码可以做成一个readxml的函数,通过使用输入的参数而读取xml不同数据记录的不同的值.这段程序的改编来自互联网,有什么出入请见谅. readxml.asp以下是引用片段:<% dim xml,objNode,objAtr,nCntChd,nCntAtr Set xml=Server.CreateObject("Microso

代码详解:ASP读取XML数据文件的方法

xml|数据|详解 分别保存下面两段代码,一个保存为readxml.asp另一个保存为test.xml,放在同一个目录下面,调试程序即可,在程序里面我已经做了解释,读取代码可以做成一个readxml的函数,通过使用输入的参数而读取xml不同数据记录的不同的值.这段程序的改编来自互联网,有什么出入请见谅. readxml.asp<%dim xml,objNode,objAtr,nCntChd,nCntAtrSet xml=Server.CreateObject("Microsoft.XMLD

实例分析:ASP读取XML数据文件的方法

xml|数据 分别保存下面两段代码,一个保存为readxml.asp另一个保存为test.xml,放在同一个目录下面,调试程序即可,在程序里面我已经做了解释,读取代码可以做成一个readxml的函数,通过使用输入的参数而读取xml不同数据记录的不同的值.这段程序的改编来自互联网,有什么出入请见谅. readxml.asp <% dim xml,objNode,objAtr,nCntChd,nCntAtr Set xml=Server.CreateObject("Microsoft.XMLD