基于Hadoop的并行共享决策树挖掘算法研究

基于Hadoop的并行共享决策树挖掘算法研究

陈湘涛    张超   韩茜

共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物.针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT).该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT).该算法采用混合数据结构,在计算分裂指标阶段使用属性袁结构,在分裂阶段采用数据记录结构.数据分析表明,HPSDT算法简化了分裂过程,其I/O操作是SDT的0.34左右.实验结果表明,PSDT和HPSDT都具有良好的并行性和扩展性;HPSDT比PSDT性能更好,并且随着数据集的增大,HPSDT的优越性更加明显.

基于Hadoop的并行共享决策树挖掘算法研究

时间: 2024-07-31 21:06:48

基于Hadoop的并行共享决策树挖掘算法研究的相关文章

基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究 蔡斌雷 任家东 朱世伟 郭芹 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度

基于Hadoop平台下的Canopy-Kmeans高效算法

基于Hadoop平台下的Canopy-Kmeans高效算法 赵庆 介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法.针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性.采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景.实验结果表明,此方法相对于传统Kmeans和Canopy算法有

基于Hadoop的电网监控信息流分布式处理研究

基于Hadoop的电网监控信息流分布式处理研究 屈志坚 郭亮 陈阁 针对智能电网调度系统中大数据集监控信息流存取困难问题,提出一种基于Hadoop云计算框架的分布式集群处理新方法.通过分析电网监控系统中信息流特性,提取3 类关键信息流:综合利用分布式文件系统HDFS和映射聚合模型Map/Reduce ,建立云集群分布式处理平台,实现监控信息的高效并行处理.以某配电网断面量测记录数据集为例进行测试,结果表明:该方法处理效率相比传统客户/ 服务器数据库方法提高了约1.4 倍,集群规模越大,效果越好,

《中国人工智能学会通讯》——12.3 基于 Apriori 的序列模式挖掘算法

12.3 基于 Apriori 的序列模式挖掘算法 GSP(Generalized Sequential Patterns) [17] 是一种经典的序列模式挖掘算法,它直接从频繁模式挖掘的 Apriori 算法扩展而来.GSP 采用了水平的数据格式,通过生成候选序列及扫描数据库的方法逐层挖掘频繁序列模式.这里的水平数据格式指的是依然以序列作为主要的观察对象.此外,GSP 还采用了序列模式支持度的向下封闭性用于剪枝.与Apriori 不同的是,GSP 在生成候选序列的时候考虑了有序和无序两种情况,

互联网访问数据预处理研究与应用 --基于Hadoop

互联网访问数据预处理研究与应用 --基于Hadoop 东华大学  黄航辉 本文的主要研究内容是:基于Hadoop环境下的互联网访问日志数据预处理相关技术的研究与应用.首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状:然后,对Web口志挖掘进行了简要概述,重点阐述了其中的Web日志预处理,并对其中的每个步骤进行了概括.其次,介绍了当前热门的大数据分布式处理平台--Hadoop,通过对目前单机大数据处理技术的研究,将其移植到Hadoop环境中.在研究的基础上,提

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

数据密集型计算环境下离群点挖掘算法设计与实现

数据密集型计算环境下离群点挖掘算法设计与实现 陈亚丽  张龙波  李彩虹  张树森  刘希昱 基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF .Map阶段采用网格进行数据约简,将代表点信息发送给主节点:Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘. 数据密集型计算环境下离群点挖掘算法设

基于Hadoop用户行为分析系统设计与实现

基于Hadoop用户行为分析系统设计与实现 北京交通大学  郝增勇 本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统.本系统实现了海量数据包抓取和分布式存储.TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑.本文采用了基于Hadoop的用户行为分析方法,首

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 [下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx