基于Hadoop的海量小型XML数据文件处理技术的设计和实现
西安电子科技大学 孔鑫
本文重点研究了如下内容:1)设计了专门针对海量小数据XML文件进行处理的分布式海量小型XML数据处理系统(Distributed Massive SmallXML files system,DMSX),该系统的主要思想就是将海量小数据XML文件在Hadoop系统中高效的进行处理。2)该系统通过运用生产者-消费模式,多线程并发技术,多级缓存技术等,来提高系统的整体处理能力。3)该系统通过对合并后的文件进行分段存储,在不影响工作模块的同时,高效利用网络资源,与数据处理模块并发进行,从而使系统在处理海量小数据XML时的效率得到提高。 本文对该系统的各个功能模块进行了详细的阐述,并对系统的高效性进行了实验分析。后期通过实际部署、多次测试、平均求值的测试方法,验证了本系统的性能。证明了文中所提出的方法可以有效的提高系统资源利用率和系统响应速度,一定程度上解决了目前Hadoop在处理海量小数据XML文件时的不足。
基于Hadoop的海量小型XML数据文件处理技术的设计和实现
时间: 2024-10-26 05:51:02