基于Hadoop平台的分布式ETL研究与实现
东华大学 何刚
本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计。分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架。第二,事实并行处理的研究。从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。实验结果表明,与Hive数据仓库相比,两种算法在并行处理数据仓库的事实数据的问题上,具有更高的效率。第三,HDFS数据块分配算法的研究。以网络流最小代价最大流理论为基础,运用改进的最短增广路径的方法求解最大流,以结点的网络距离和负载均衡为代价,提出了一种把HDFS数据块分配到分布式数据仓库的分配算法。通过实验表明,本文提出的分配算法与已有算法相比,前者具有更高的有效性最后本文给出了基于Hadoop平台的分布式ETL系统的实现过程,性能优于目前已存在的分布式ETL系统。
基于Hadoop平台的分布式ETL研究与实现
时间: 2024-11-02 12:00:32