基于Hadoop的并行共享决策树挖掘算法研究

基于Hadoop的并行共享决策树挖掘算法研究

陈湘涛张超韩茜

共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物.针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT).该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT).该算法采用混合数据结构,在计算分裂指标阶段使用属性袁结构,在分裂阶段采用数据记录结构.数据分析表明,HPSDT算法简化了分裂过程,其I/O操作是SDT的0.34左右.实验结果表明,PSDT和HPSDT都具有良好的并行性和扩展性；HPSDT比PSDT性能更好,并且随着数据集的增大,HPSDT的优越性更加明显.

基于Hadoop的并行共享决策树挖掘算法研究

时间： 2024-07-31 21:06:48

基于Hadoop的并行共享决策树挖掘算法研究的相关文章

基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究蔡斌雷任家东朱世伟郭芹随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度

基于Hadoop平台下的Canopy-Kmeans高效算法

基于Hadoop平台下的Canopy-Kmeans高效算法赵庆介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法.针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性.采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景.实验结果表明,此方法相对于传统Kmeans和Canopy算法有

基于Hadoop的电网监控信息流分布式处理研究

基于Hadoop的电网监控信息流分布式处理研究屈志坚郭亮陈阁针对智能电网调度系统中大数据集监控信息流存取困难问题,提出一种基于Hadoop云计算框架的分布式集群处理新方法.通过分析电网监控系统中信息流特性,提取3 类关键信息流:综合利用分布式文件系统HDFS和映射聚合模型Map/Reduce ,建立云集群分布式处理平台,实现监控信息的高效并行处理.以某配电网断面量测记录数据集为例进行测试,结果表明:该方法处理效率相比传统客户/ 服务器数据库方法提高了约1.4 倍,集群规模越大,效果越好,

《中国人工智能学会通讯》——12.3 基于 Apriori 的序列模式挖掘算法

12.3 基于 Apriori 的序列模式挖掘算法 GSP(Generalized Sequential Patterns) [17] 是一种经典的序列模式挖掘算法,它直接从频繁模式挖掘的 Apriori 算法扩展而来.GSP 采用了水平的数据格式,通过生成候选序列及扫描数据库的方法逐层挖掘频繁序列模式.这里的水平数据格式指的是依然以序列作为主要的观察对象.此外,GSP 还采用了序列模式支持度的向下封闭性用于剪枝.与Apriori 不同的是,GSP 在生成候选序列的时候考虑了有序和无序两种情况,

互联网访问数据预处理研究与应用 --基于Hadoop

互联网访问数据预处理研究与应用 --基于Hadoop 东华大学黄航辉本文的主要研究内容是:基于Hadoop环境下的互联网访问日志数据预处理相关技术的研究与应用.首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状:然后,对Web口志挖掘进行了简要概述,重点阐述了其中的Web日志预处理,并对其中的每个步骤进行了概括.其次,介绍了当前热门的大数据分布式处理平台--Hadoop,通过对目前单机大数据处理技术的研究,将其移植到Hadoop环境中.在研究的基础上,提

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现西安电子科技大学李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

数据密集型计算环境下离群点挖掘算法设计与实现

数据密集型计算环境下离群点挖掘算法设计与实现陈亚丽张龙波李彩虹张树森刘希昱基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR＿LOF ．Map阶段采用网格进行数据约简,将代表点信息发送给主节点:Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域．该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度．实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘．数据密集型计算环境下离群点挖掘算法设

基于Hadoop用户行为分析系统设计与实现

基于Hadoop用户行为分析系统设计与实现北京交通大学郝增勇本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统.本系统实现了海量数据包抓取和分布式存储.TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑.本文采用了基于Hadoop的用户行为分析方法,首

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 [下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx

猜你喜欢

三月美女节 Win8丰富应用畅享精彩时尚生活

阳春三月,春暖花开,美女们又迎来了一年一度属于自己的美丽节日.在这个Windows 8陪伴的第一个明媚春天里,本文和大家一起分享一些适合女性朋友们常用的Win8应用,祝大家节日快乐,与Win8一起畅享 ...

电商网站如何提高客户的满意度？

大家应该经常会发现存在这样的情况,我们在百度上明明通过搜索到了我们感兴趣的东西,可是点进去之后,并没有找到这个产品或者信息,很多是找了半天都没找到.最后不得不失望的离开,对于这种问题,特别是一些电商的 ...

浅谈网站优化中突破瓶颈的三个思路

当自己给网站做的优化达到一定的高度时,往往就会停留上前的,许多的SEOer都遇到过这样那样的优化瓶颈.当走进瓶颈中,往往使得很多站长都束手无策,思考半天愣是没有一点的头绪.其实每个做网站优化的站长都会 ...

vi中如何插入当前时间

前言最近在写文档,需要频繁的插入当前的日期与时间. 所以想让vi 能够方便的插入时间. 正文首先我在论坛上找到了一个方法. 是使用这个命令 :r !date 但是这个只有日期,我想加个时间,不能使 ...

使用Eclipse Ganymede为桌面、Web和移动设备开发软件，第3部分

第3部分: 采用Ganymede进行嵌入式Rich Client Platform开发 Eclipse Ganymede 是同时发行的 24 个主要 Eclipse IDE 项目.在这个分为三部分的 ...

wps表格中如何制作圆环图表

wps表格中制作圆环图表的方法: 1.首先选择已到和未到数据,点击插入--二维饼图的圆环图,这里记得一定要是选中数据只选择数据的话不会产生文字的. 2.修改上面的文字直接点击上面的文字,双击进入修 ...

一组格调高雅气质不俗的知名奢侈品网站

网站如何打造贵族气质?来看今天这组世界知名的奢侈品官网!类型包括手表.服装.酒店等等,你可以从它们清爽的布局.优雅的配色和漂亮的排版中吸收经验,附上三篇专为打造高档感觉的实战方法,来收! Omeg ...

开启Win8.1预览版隐藏“上帝模式”

和以往的Windows版本一样,Windows 8.1预览版中也隐藏了"上帝模式"(God Mode),用户可以通过它访问控制面板和系统设置的所有选项. 这个所谓的" ...

快速输入word2007重复文字的方法

word2007,相信很多办公族朋友都使用过,那你知道文字输入的一些小技巧,比如在输入文档时遇到重复文字输入,有什么快速的方法介绍吗?答案是有的,方法如下: word2007 先输入词组如:快乐. ...

如何在win7中自定义输入法图标

在桌面任务栏上右键点击输入法图标,选择"设置",如图所示: 在弹出的窗口中,点击"中文(简体)---美式键盘",在右侧看到"属性"按钮, ...

host文件设置详解

host文件设置详解有很多朋友不清楚Host文件是什么东西?其实hosts文件是用来记录主机ip地址和主机名的对应关系,建立后就可以用主机名来访问主机,而不必记ip地址了.(HOSTS就是本地的 ...

淘宝助理上传数据包没有图片怎么办

1.一般解压淘宝的数据包会有如下图的文件. 2.然后大家打开淘宝助理,宝贝管理→导入CSV→找到.csv文件. 3.如下图的箭头的操作步骤添加图片→选择要上传的图片,相信卖家都懂的. 4.找到解压 ...

XP系统中文件夹无法删除的应对方法

21世纪是互联网的时代,很多windows xp系统用户都会选择使用电脑来进行工作.学习.休闲娱乐等,有些时候我们会选择在电脑上安装某些应用软件,等到以后想要卸载掉该应用软件时,却发现系统中总会残留一 ...

// // UIColor+ColorExtension.h // HomeLinkProject // // Created by huangyibiao on 14-6-1. // Copyrig ...

androidstudio-AndroidStudio中有没有类似Eclipse中F3的快捷键

问题描述 AndroidStudio中有没有类似Eclipse中F3的快捷键 AndroidStudio中有没有类似Eclipse中F3的快捷键解决方案 Ctrl+点击鼠标左键,或者 Ctrl+B ...

git install

安装git依赖的包如下 : yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel 到以下地址下载git源代 ...

新手求助--TXseries V7.1

问题描述关于TxseriesV7.1的问题有许多疑惑的地方,希望各位大神帮我解答一下,我的QQ:781355710.第一:安装的环境XPServicePackage2?还要安装IBM的JDK?还要安 ...

asp.net mvc-dropdownlist修改后显示的问题

问题描述 dropdownlist修改后显示的问题 1C 已经完成了修改页面,dropdownlist数据绑定功能. 但现在的问题(如下图)是 "学术特长"插入数据库的是其主键值 ...

java 笔试题-网易类的初始化的笔试题

问题描述网易类的初始化的笔试题 public class Father { public static String desc = "Father"; static { Syst ...

[译] JavaScript 开发者年度调查报告

本文讲的是[译] JavaScript 开发者年度调查报告, 原文链接 : JavaScript Developer Survey Results 原文作者 : ponyfoo 译文出自 : 掘金翻译 ...

汉鼎咨询:创业者背后的创业者

汉鼎咨询作为国内最大的IPO咨询公司,近几年来受到了行业和媒介的关注.我们对汉鼎咨询执行总裁王叁寿进行了专访,以期对该行业和汉鼎咨询公司本身有深入了解. 记者:汉鼎咨询这样的第四类金融服务机构最近几 ...

庖丁解牛-----Live555源码彻底解密(RTP解包)

Live555 客户端解包以testRTSPClient.cpp为例讲解: Medium<-MediaSource<-FramedSource<-RTPSource<-M ...

高速换轮：Uber如何用微服务重构工程系统？

几个月前,我们讨论过Uber关于放弃它单一整体的代码库,而支持一种模块化的灵活的微服务结构.自那时候以来,我们已经花费了数千个小时,使用多种语言和多种不同的框架来扩展Uber的微服务(数以百计)生态系 ...

asp中设置session过期时间方法总结_应用技巧

如果程序中没有设置session的过期时间,那么session过期时间就会按照IIS设置的过期时间来执行,IIS中session默认过期时间为20分钟,IIS中session时间可以更改时间设置要放 ...

写入cookie的JavaScript代码库 cookieLibrary.js_javascript技巧

/* Cookie Library -- "Night of the Living Cookie" Version (25-Jul-96) 2缔友计算机信息技术有限公司,涂聚文 g ...

Android模仿知乎的回答详情页的动画效果_Android

废话不多说,咱们第一篇文章就是模仿"知乎"的回答详情页的动画效果,先上个原版的效果图,咱们就是要做出这个效果在实现之前,我们先根据上面的动画效果,研究下需求,因为gif ...

php 无法加载mcrypt.dll的解决办法_php技巧

1.php.ini里面查找extension=php_mcrypt.dll,去掉前面的分号";" ,重启apache.无效(注意:在AppServ中php.ini在dinwos目录 ...

测试Web应用程序的基本要素

今天,每个人都依赖用于商业,教育和交易目的各类网站.网站涉及到互联网.人们普遍认为,现如今样样工作都离不开互联网.不同类型的用户连接到网站上为了获取所需要的不同类型的信息.因此,网站应该根据用户的不同 ...

盛大游戏张向东：寻求新机会进入全球市场

8月28日消息,盛大游戏http://www.aliyun.com/zixun/aggregation/259.html">CEO兼首席制作人张向东昨日在Q2财报会议上表示,经营海外游 ...

MarkdownPad2的注册码

MarkdownPad2的密钥经本人试用邮箱: Soar360@live.com 授权秘钥: GBPduHjWfJU1mZqcPM3BikjYKF6xKhlKIys3i1MU2eJHqWGImDH ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.025 s.