Hadoop架构下数据挖掘与数据迁移系统的设计与实现

Hadoop架构下数据挖掘与数据迁移系统的设计与实现

上海交通大学  吕明育

通常情况下企业的信息系统会包含多个业务系统,每个业务系统包含自身的一套在线业务系统、备份系统和归档系统,系统管理复杂,易造成存储空间的浪费,并且系统扩展性较差。针对以上缺点,本文设计并实现了一个分层存储系统,采用一个大数据平台对多个业务系统数据实行统一管理,将每个业务系统的备份系统和归档系统合二为一。此分层存储系统提供基于Hadoop架构的数据挖掘和数据迁移系统的方案。具体内容如下:(1)分析了MapReduce分布式架构、HBase数据库、HDFS分布式文件系统等Hadoop关键技术。(2)设计并实现了基于Hadoop架构的分层存储系统,并对系统和大数据平台的架构设计进行了详细的阐述。(3)设计并实现基于MapReduce模式的数据挖掘模块,将传统关系型数据库的分析方法应用于HBase数据库,有效的对HBase数据库数据进行挖掘分类。(4)设计并实现了数据迁移模块,实现了将在线业务平台的结构化数据和非结构化数据迁移到大数据平台的功能。结构化数据迁移的过程采用MapReduce数据迁移,设计了基于IO负载的调度算法,调度时考虑到资源使用情况,避免将任务分配给IO负载重的节点。设计实现非结构化数据迁移工具,巧妙地利用FTP,多并发的将在线业务平台的日志文件等数据迁移到HDFS指定目录下。(5)对系统的功能和性能进行了完整的测试。测试结果表明,系统所有的功能模块都满足设计要求,且文中提出的IO调度器与默认调度器相比有更好的迁移性能。论文设计的数据挖掘和数据迁移系统满足了特定的要求,具有较好的并发数据迁移性能,并且实现了大数据规模下的数据分类挖掘。

Hadoop架构下数据挖掘与数据迁移系统的设计与实现

时间: 2024-09-15 13:11:27

Hadoop架构下数据挖掘与数据迁移系统的设计与实现的相关文章

一种基于WCF的遥感数据验证系统的设计与实现

一种基于WCF的遥感数据验证系统的设计与实现 李军 曹志伟 韩道军 遥感数据验证影响到遥感反演应用中的方法及功能的设计,是遥感数据处理的一个重要环节.现有遥感数据验证功能主要在单机环境下运行,不能很好地适应分布式系统及云计算环境且传输效率较低.针对此问题,设计一种基于WCF(Windows Communication Foundation)的遥感数据验证系统,能够实现分布式环境下遥感数据及验证结果的传送功能,统一性和互操作性强,且易于扩展,数据传输性能较高.实例及分析说明了系统的有效性. 一种基

Linux下一个简单的日志系统的设计及其C代码实现

1.概述 在大型软件系统中,为了监测软件运行状况及排查软件故障,一般都会要求软件程序在运行的过程中产生日志文件.在日志文件中存放程序流程中的一些重要信息,包括:变量名称及其值.消息结构定义.函数返回值及其执行情况.脚本执行及调用情况等.通过阅读日志文件,我们能够较快地跟踪程序流程,并发现程序问题.因此,熟练掌握日志系统的编写方法并快速地阅读日志文件,是对一个软件开发工程师的基本要求. 本文详细地介绍了Linux下一个简单的日志系统的设计方法,并给出了其C代码实现.本文为相关开发项目Linux下软

[文档]基于Hadoop/Hive的web日志分析系统的设计

基于Hadoop/Hive的web日志分析系统的设计 刘永增,张晓景,李先毅 利用Hadoop.Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的. 关键词:web日志:云计算:Hadoop:Hive [下载地址]http://bbs.chinacloud.cn/showtopic-12968.aspx

云计算架构下的安全生产应急预测预警系统的设计和应用

云计算架构下的安全生产应急预测预警系统的设计和应用 任钢,王国栋 云计算是 IT 行业的前沿学科.本文介绍了云计算的概念.架构和特点,并论述了应急预测预警系统构建在云计算平台的可行性.接着详细描述了安全生产应急预测预警系统在云计算架构上的应用模式.技术架构.功能模块和应用流程. 关键词:云计算:安全生产管理:应急预测预警系统 temp_12110108255598.rar

如何配置利用Data Services进行Hadoop Pig与HANA的数据迁移

SAP BusinessObjects Data Services 是一个以企业为单位的,解决数据整合,数据质量,数据处理,数据迁移为一体的解决方案.它可以让用户集成,转换,升级和利用高价值数据来做核心的商业处理.DataServices提供一个开发的用户接口界面,一个元数据仓库,一个数据连接层,一个实时运行环境,以及一个管理控制台. SAP BusinessObjects Data Services repository是一系列 Data Services的元数据仓库,它是由一个表的集合构成.

BS架构下如何处理大量数据,解决超时问题

问题描述 如:循环向数据库插入百万级数据,BS架构,因数据量大,浏览器执行时超时,有何好的解决方案.不要告诉我把服务器链接超时时间设置时间长些,这个我也能想到我们老版本方案是采用的active控件来处理的,这样确实能解决问题,但是就是在浏览器上操作时,先得安装控件,而且很多用户浏览器设置的是禁止控件运行,每次得指导用户设置,用户体验非常不好.有没有高人能有解决方法,小弟感激不尽. 解决方案 解决方案二:网页怎样获得数据?怎样提交数据?服务器接收到数据用多长时间?服务器将数据插入数据库用多长时间?

如何在已有的EAI架构下进行大数据量的传输?

问题描述 我们公司现在有AB两个不同网段的系统之间需要通过已有的EAI每天进行大约60万条数据量的数据同步,原来的方法是A将数据生成同步文件并发送JMS消息给EAI,EAI收到消息后通过FTP去A取同步文件,EAI读取完文件后通过FTP方式直接将同步文件写入B系统目录并发消息给B告知文件写入完毕,B系统再通过sqlloader将同步文件导入数据库,这样导致了多点故障和效率很低的问题,同步一次要几个小时.不知道在必需使用EAI的情况下还有什么其他好的解决办法,整天被业务部门骂,烦死了.

从架构到监控报警,支付系统的设计如何步步为营

企业所处发展阶段不同,对支付系统的定位和架构也不尽相同.整体上来说,我们可以把一个公司的支付系统发展分为三个阶段:   支付系统:支付作为一个(封闭)的.独立的应用系统,为各系统提供支付功能支持.一般来说,这个系统仅限于为公司内部的业务提供支付支持,并且和业务紧密耦合. 支付服务:支付作为一个开发的系统,为公司内外部系统.各种业务提供支付服务.支付服务本身应该是和具体的业务解耦合的. 支付平台:支付作为一个可扩展的平台, 公司内外部的用户可以在此基础上定制开发自己的服务.   这个划分有点勉强.

基于Hadoop架构的移动终端云资源访问模式研究与应用

基于Hadoop架构的移动终端云资源访问模式研究与应用 北京工业大学  汤艳 为了在Hadoop架构上建立移动终端云资源访问模式,首先对Hadoop架构的基本组成进行深入了解,并着重分析其核心组件HDFS分布式文件系统和MapReduce分布式编程模型的工作原理.由于Hadoop和云计算在观点和关键技术上的一致性,使得Hadoop成为面向分布式的云计算平台.其次,将云资源访问模式分为数据存储策略.请求调度算法和数据响应方式三个方面进行讨论,并对Hadoop架构下常见的云资源访问模式进行分析.然后