基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究

蔡斌雷任家东朱世伟郭芹

随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。

基于Hadoop MapReduce的分布式数据流聚类算法研究

时间： 2024-10-22 15:25:04

基于Hadoop MapReduce的分布式数据流聚类算法研究的相关文章

基于MapReduce的分布式极图构造算法研究

基于MapReduce的分布式极图构造算法研究北京交通大学赵男随着云计算技术的快速发展,很多与大规模数据处理相关的研究与应用都逐渐迁移到云计算环境中,如数据挖掘.网络搜索.图像处理以及生物信息分析等.对大规模的图数据处理技术也是当前高性能计算领域的研究热点.而在图论研究中,极图构造算法作为极图理论的一个重要研究内容,越来越受到人们的关注. 极图是指满足一定约定条件且边数最多的图,其构造算法产生大规模的临界图集合作为中间数据.传统的串行极图构造算法会因为需要处理的临界图数量的大幅增加而变得效

基于Hadoop的并行共享决策树挖掘算法研究

基于Hadoop的并行共享决策树挖掘算法研究陈湘涛张超韩茜共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物.针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT).该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT).该算法采用混合数据结构,在计算分裂指标阶段使用属性袁结构,在

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现西安电子科技大学李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现东华大学何刚本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并

基于MapReduce编程模型的TFIDF算法研究

基于MapReduce编程模型的TFIDF算法研究赵伟燕王静宇随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要.现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比.实验证明,

基于Hadoop平台下的Canopy-Kmeans高效算法

基于Hadoop平台下的Canopy-Kmeans高效算法赵庆介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法.针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性.采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景.实验结果表明,此方法相对于传统Kmeans和Canopy算法有

《中国人工智能学会通讯》——12.46 分类型数据流聚类算法

12.46 分类型数据流聚类算法在许多真实的应用中经常产生连续到达的数据,诸如网络流量监控.股票市场.信用卡欺诈检测.网站点击流和超市的客户交易等.由于到达的数据随着时间变化,所以数据的分布也将随着时间发生变化.比如在社会网络分析中,一些人可能逐渐从一个主题转换到另一个主题,而一些人可能很快改变他们的兴趣,利用聚类分析可以发现不同群体在不同时间段行为模式.针对数值型数据,数据流的聚类问题已经做了大量的研究[21-24] . 针对分类型数据,为挖掘动态Web 站点用户日志的演化,Nasraoui

《中国人工智能学会通讯》——12.43 分类型数据聚类算法研究进展

12.43 分类型数据聚类算法研究进展在大数据环境下,许多数据是缺乏先验信息的,对数据标注的成本也越来越高,一个最自然的方法是对数据进行适当划分之后再进行相关的数据处理,而聚类分析是数据划分的一种重要技术手段[1] .在许多实际应用中,分类型变量是一种非常重要的数据表现形式[2] .比如,在问卷调查中,客户的兴趣爱好.家庭住址.教育情况都是分类型变量:在电子邮件过滤中,将邮件分为垃圾邮件和合法邮件:在医学中,一个病人受伤的程度可分为轻微的.中度的和严重的:在市场营销中,经常将客户分为高.中.低

ftp服务器-毕设求大神指点！！题目是基于SaaS模式的分布式FTP服务器技术研究

问题描述毕设求大神指点!!题目是基于SaaS模式的分布式FTP服务器技术研究内容是: 目前,云计算正在各领域得到越来越多的应用,出现了多种云计算环境,掌握云计算的概念,熟悉相关云计算平台上的软件开发方法,对提高学生综合运用所学知识解决实际问题具有十分重要的现实意义.作为云计算平台之一的百度云,已得到了广泛应用, 本课题在理解FTP服务器模式的前提下,在saas环境下建立分布式的ftp服务,用户可通过ftp客户端传送数据. 该课题具有以下要求: 1. 了解云计算的基本原理,掌握基于saas的开

猜你喜欢

Win8强大兼容性无需适应快速上手

如果说使用Win7是在一个我们熟悉的环境中操作,那么Win8就是给我们带来了两个激动人心的环境,一个是新颖的"开始"屏幕及它的应用生态,还有一个就是我们熟悉的跟Win7一样的桌 ...

微信二次开发问题无法调用分享至朋友圈的接口

问题描述微信二次开发问题无法调用分享至朋友圈的接口项目使用thinkphp开发 js安全接口之类的已经在公众号里面配置过了但是没有设置启用服务器配置. 代码是按照微信给的demo的 wx.co ...

Android中实现动态切换组件背景的操作

这个也是昨天学习用到的,总结下思路吧,因为这个知识点以后绝对会再次用到. 目的:我要在软件中动态的选择组件背景,系统皮肤,自定义吐司背景等. 实现思路:要用到安卓中的SharedPrefence的功 ...

Windows7下U盘文件名称乱码而无法删除的解决方法

原因分析: 出现类似的情况多办是由于在使用U盘的过程中经常强行插拔导致文件损坏.文件分配表错乱,当然U盘使用年头久后也容易出现这样的问题. 解决方法: 1.运行CMD命令提示符,然后执行chkds ...

微信公众平台删除单篇文章操作步骤详解

微信公众平台推送多图文后发现某篇文章有误,要是以前只能全部删除.现在不用纠结了,3月26日,微信公众平台推出新功能,现在可以直接选择单篇文章进行删除. 微信公众平台删除单篇文章操作步骤: 群发功能 ...

MindMapper主题编辑方法汇总

方法一使用Enter键双击主题可以进行编辑;或者选中要编辑的主题,按Enter键;编辑好后,按Enter键完成. 小提示:若是要编辑的内容很多,可以同时按Shift+Enter组合键,调用文本 ...

设置防止别人复制u盘中的文件的方法

1.首先打开开始菜单中的运行对话框,然后输入"gpedit.msc"回车打开"本地组策略编辑器"的窗口; 2.在打开的窗口中,依次展开左侧的"计算 ...

＂请插入U盘＂故障的处理办法

可以认U盘,但打开时提示"磁盘还没有格式化"但系统又无法格式化,或提示"请插入磁盘",打开U盘里面都是乱码.容量与本身不相符等. 维修思路:对于此现象,可以 ...

Javascript入门学习第六篇 js DOM编程第1/2页_基础知识

学习英文: Dom:文档对象模型.Document object model Bom:浏览器对象模型. 注:也可以叫窗口对象模型.(window object model.) API:应用编程接口. ...

用索引器简化的C#类型信息访问

"C#中的Indexer给人一种更'透彻'的感觉,集合类型就是集合类型,有自己专用但又最简洁的访问方式,而且同一类型可以有不同的索引访问方式." --<设计模式_基于C ...

教你如何看手相掌握命运！

男左女右(注意区分) 1. 生命线生命线--即生命纹.从大拇指与食指中间的掌边开始,往掌底走的纹路.生命纹的长短并不代表寿命的长短,而是代表生命力的强弱,所以生命纹其实应该叫做生命力纹. 生命 ...

h5跳转回activity-H5跳转回activity,怎么获取它的点击事件啊

问题描述 H5跳转回activity,怎么获取它的点击事件啊 android里面嵌入一个纯h5,要点击h5左上叫一个按钮返回activity界面,怎么求哥哥姐姐给个建议,能给一段代码最好? 谢 ...

我是一个网吧老板，想在微信公众号上实现在线查询网吧内是否有座位

问题描述我是一个网吧老板,想在微信公众号上实现在线查询网吧内是否有座位我是一个网吧老板,想在微信公众号上实现在线查询网吧内是否有座位想实现在线实时查询功能,各路大神,能不能给点思路,指导一下解 ...

PS的Action批处理

每次狂按快门的结果就是得到海量的数码照片,想传上网的话,最起码也要做一些尺寸方面的处理,这么多照片,真的要一张一张处理吗?Photoshop自有好用的Action工具帮我们做批处理. 一.前期准备在 ...

《Redis入门指南》一4.4　消息通知

4.4 消息通知 Redis入门指南凭着小白的用心经营,博客的访问量逐渐增多,甚至有了小白自己的粉丝.这不,小白刚收到一封来自粉丝的邮件,在邮件中那个粉丝强烈建议小白给博客加入邮件订阅功能,这样当小 ...

android 图片上传服务器接收图片方法代码

问题描述 android 图片上传服务器接收图片方法代码求android 批量图片上传服务器接收,代码,最好有详细解释,万分感谢jackcathy369@163.com 解决方案 http:// ...

浏览器兼容性-chrome浏览器li下显示input表单宽度总大于IE浏览器

问题描述 chrome浏览器li下显示input表单宽度总大于IE浏览器解决方案 input宽度设置了没有?要不每个浏览器input默认宽度不一样解决方案二: 你自己设置个input的固定宽度

cin详解（get()、getline()、clear()、sync()）

简述在C中,输入输出用scanf和printf,在输入数据的同时还需说明数据的类型,如果输入数据较多,那就很麻烦,而C++中也有相似的东西cin和cout,它们来自C++的一个名叫" io ...

epoll相关

1) 能不能给一个使用epoll相关API进行IO监控的示例?在<<epoll学习笔记>>中有一个简单的示例说明epoll相关API的使用, 但是这个示例是非常简单的, 它仅仅 ...

于刚的自述

五年多以前,1号店是什么?只是一个概念,一个梦想,一个愿景,而把这个概念变成现实是有巨大鸿沟的,因为概念如果停在在嘴上就永远只是一个概念. 第一道槛:从职业经理人到创业者 2008年,我和搭档刘峻岭都 ...

注册问题

问题描述注册模式中的开放注册和授权注册有什么区别? 解决方案您好,在url指定的org和app中创建一个新的用户,分两种模式:开放注册和授权注册"开放注册"模式:注册环信账 ...

chrome下的Grunt插件断点调试——基于node-inspector

之前调试grunt插件时,都是通过人肉打log来调试.不仅效率低,而且会产生一堆无用的代码.于是简单google了下node断点调试的方法,总结了下. 借助node-inspector,我们可以通过C ...

基于gentoo安装Nginx php mysql的方法_Linux

1.先在/etc/make.conf加入sync站点,待会儿要用emerge进行同步. 复制代码代码如下: SYNC="rsync://rsync.gentoo.org/gentoo-po ...

Python3.0与2.X版本的区别实例分析_python

本文通过列举出一些常见的实例来分析Python3.0与2.X版本的区别,是作者经验的总结,对于Python程序设计人员来说有不错的参考价值.具体如下: 做为一个前端开发的码农,最近通过阅读最新版的&l ...

jQuery制作拼图小游戏_jquery

源代码思路分析: [一]如何生成图片网格,我想到两种方法: (1)把这张大图切成16张小图,然后用img标签的src (2)只有一张大图,然后每个元素的背景图用css的background-posit ...

Google使用方法与屏蔽和解封的办法

语法格式:site : 网址关键词或者关键词 site : 网址注意事项:site:后边跟的冒号必须是英文的":",中文的全角冒号":"无用 url前不 ...

cas4.0版本的service信息返回问题

问题描述 cas4.0版本的service信息返回问题最近在用cas做单点登录,当我返回信息的时候遇到一个问题所有返回的数据都进入到了这个类PersonDirectoryPrincipalResol ...

学习项目管理之管理人的艺术

从事.Net编程一起第四年了,也是来中通总部第二年,系统也如期的稳定上线了,最艰苦的2014年也已经过去了,系统稳定上线后,还有很多的事情要忙,不是忙着编码了,而是忙着管理,毕竟现在编码的工作已经初 ...

QDII连续大涨短期风险加剧

连续3个月收益率超过10%,囊括最近一个季度开基收益排名前5名. "跟风购买要不得",专家认为投资者短期内最好保持谨慎态度. 文/<投资与理财>记者叶辉 QDII涨疯了 ...

iOS 归档

iOS 归档的记录归档是一种很常用的文件储存方法,几乎任何类型的对象都能够被归档储存(实际上是一种文件保存的形式),浏览网上的一些资料后,并结合自己的一些经验,总结成此文. 一.使用archiv ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.025 s.