Hadoop架构下数据挖掘与数据迁移系统的设计与实现
上海交通大学 吕明育
通常情况下企业的信息系统会包含多个业务系统,每个业务系统包含自身的一套在线业务系统、备份系统和归档系统,系统管理复杂,易造成存储空间的浪费,并且系统扩展性较差。针对以上缺点,本文设计并实现了一个分层存储系统,采用一个大数据平台对多个业务系统数据实行统一管理,将每个业务系统的备份系统和归档系统合二为一。此分层存储系统提供基于Hadoop架构的数据挖掘和数据迁移系统的方案。具体内容如下:(1)分析了MapReduce分布式架构、HBase数据库、HDFS分布式文件系统等Hadoop关键技术。(2)设计并实现了基于Hadoop架构的分层存储系统,并对系统和大数据平台的架构设计进行了详细的阐述。(3)设计并实现基于MapReduce模式的数据挖掘模块,将传统关系型数据库的分析方法应用于HBase数据库,有效的对HBase数据库数据进行挖掘分类。(4)设计并实现了数据迁移模块,实现了将在线业务平台的结构化数据和非结构化数据迁移到大数据平台的功能。结构化数据迁移的过程采用MapReduce数据迁移,设计了基于IO负载的调度算法,调度时考虑到资源使用情况,避免将任务分配给IO负载重的节点。设计实现非结构化数据迁移工具,巧妙地利用FTP,多并发的将在线业务平台的日志文件等数据迁移到HDFS指定目录下。(5)对系统的功能和性能进行了完整的测试。测试结果表明,系统所有的功能模块都满足设计要求,且文中提出的IO调度器与默认调度器相比有更好的迁移性能。论文设计的数据挖掘和数据迁移系统满足了特定的要求,具有较好的并发数据迁移性能,并且实现了大数据规模下的数据分类挖掘。
Hadoop架构下数据挖掘与数据迁移系统的设计与实现
时间: 2024-09-15 13:11:27