基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现

东华大学  何刚

本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计。分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架。第二,事实并行处理的研究。从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。实验结果表明,与Hive数据仓库相比,两种算法在并行处理数据仓库的事实数据的问题上,具有更高的效率。第三,HDFS数据块分配算法的研究。以网络流最小代价最大流理论为基础,运用改进的最短增广路径的方法求解最大流,以结点的网络距离和负载均衡为代价,提出了一种把HDFS数据块分配到分布式数据仓库的分配算法。通过实验表明,本文提出的分配算法与已有算法相比,前者具有更高的有效性最后本文给出了基于Hadoop平台的分布式ETL系统的实现过程,性能优于目前已存在的分布式ETL系统。

基于Hadoop平台的分布式ETL研究与实现

时间: 2024-11-02 12:00:32

基于Hadoop平台的分布式ETL研究与实现的相关文章

基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究 蔡斌雷 任家东 朱世伟 郭芹 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

基于Hadoop平台的TFIDF算法并行化研究

基于Hadoop平台的TFIDF算法并行化研究 王静宇 赵伟燕 计算机工程与科学 2014年06期 基于Hadoop平台的TFIDF算法并行化研究

[文档]基于Hadoop 平台的数据分析方案的设计应用

基于Hadoop 平台的数据分析方案的设计应用 姜文,辛阳,陈林顺 摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势.其中Hadoop 是应用较多的分布式存储和计算框架之一.本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 [下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx

基于Hadoop平台的新闻云方案设计

基于Hadoop平台的新闻云方案设计 尚凤军 谈娅 社会进步离不开新闻传播,新闻的传播和共享是提高人类素质的重要方法?为改善新闻的服务水平,采用云计算的先进理念和先进技术,设计了一个新闻云原型平台,为新闻行业提供服务?该平台引入Hadoop作为新闻数据的存储核心,使用Hive数据库解决数据转换和查找,能够完成海量数据的检索?对设计的方案进行了部分测试,达到了设计要求? 基于Hadoop平台的新闻云方案设计

基于Hadoop平台的教育资源库建设

基于Hadoop平台的教育资源库建设 闫娟  耿凯峰  刘丽 首先介绍了云计算的相关概念,其次阐述了当前教育资源库建设的现状以及存在的问题,进而提出基于Hadoop平台的教育资源库建设方案,最后详细介绍了其核心模块的实现过程. 下载地址:http://bbs.chinacloud.cn/showtopic-18404.aspx

基于Hadoop平台的大数据分析关键技术标准化探讨

基于Hadoop平台的大数据分析关键技术标准化探讨 高洪  杨庆平  黄震江 分析基于Hadoop平台的大数据分析关键技术面临的标准化问题,从数据采集.并行计算框架.分析结果输出.并行数据分析算法四个方面进行标准化的分析和调研,提出包含架构模型等四个方面的标准化方向以及相关API等方面的标准化建议. 关键词--大数据分析: 计算框架: 并行分析算法: Hadoop 基于Hadoop平台的大数据分析关键技术标准化探讨