一种基于MapReduce的并行聚类模型

一种基于MapReduce的并行聚类模型

顾瑞春  王静宇

在对海量数据进行聚类的过程中,传统的串行模式局限性越来越明显,难以在有效时间内得出满意结果的问题,本文提出一种基于Hadoop 平台下MapReduce框架的并行聚类模型。理论和实验结果证明该模型具有接近线速的加速比,针对海量数据具有较高效率。

一种基于MapReduce的并行聚类模型

时间: 2024-11-18 11:35:35

一种基于MapReduce的并行聚类模型的相关文章

一种基于MapReduce架构的微博用户影响力评价算法的设计与实现

一种基于MapReduce架构的微博用户影响力评价算法的设计与实现 方超    周斌    李爱平 随着互联网的高速发展和Web2.0时代的到来,微博用户正以惊人的速度在增长.新浪微博现以粉丝数作为用户排名的依据,在僵尸粉和大量低使用率帐号的影响下,这种简单的排名依据难以表征用户的影响力.本文以海量新浪微博数据为分析对象,在分布式系统上构建微博用户的影响力评价模型.文章主要以微博用户的转发网络计算微博用户的微博影响力,再利用关注关系计算微博用户的潜在影响力,最后合成微博用户影响力的评价模型.实验

有没有人做过逻辑回归基于mapreduce的并行实现

问题描述 假设将共包含M行数据样本的输入文件划分成任意大小的L小块,每块包含任意K条数据样本,怎么划分,

基于Hadoop的K-Medoids聚类算法实现与优化

基于Hadoop的K-Medoids聚类算法实现与优化 华东师范大学 蒋耀斌 本文结合K-Medoids算法的特点与Hadoop平台的优势,借鉴Mahout开源项目中已经实现的并行K-Means聚类算法的实现方案,提出了一种基于MapReduce的并行聚类算法HK-Medoids,大幅提升传统聚类算法的运算速率.另外,为了进一步提高聚类效率,本文从完善MapReduce调度.采取抽样方法.预设聚类初值中心点和优化数据源等方面对HK-Medoids作了进一步的优化.为了验证HK-Medoids算法

基于MapReduce的GML并行查询

基于MapReduce的GML并行查询 许斌   关佶红 针对应用地理标记语言(Geography Markup Language,GML)表示的海量空间数据查询问题,提出一种基于MapReduce的GML并行查询方法.通过提取GML空间特征集合,实现GML文档查询到GML空间特征集合查询的查询转化,并利用MapReduce实现空间特征并行查询. 基于MapReduce的GML并行查询

基于云计算的并行K-means气象数据挖掘研究与应用

基于云计算的并行K-means气象数据挖掘研究与应用 南京信息工程大学   潘吴斌 聚类分析是数据挖掘中的一个重要研究领域,它将数据划分成若干个聚类,使得在同一聚类中的对象比较相似,而不同聚类中的对象差别很大.K-means算法被认为是最经典的基于划分的聚类方法,常采用误差平方和准则函数作为聚类准则,该算法在处理数据集上相对可伸缩且高效率.但面对大规模数据时,运算量也随之增加,运算所需的资源和时间耗费明显增大.为了突破这个瓶颈,通过分析和研究得知,与传统的并行计算模型相比,MapReduce分布

基于MapReduce的分布式极图构造算法研究

基于MapReduce的分布式极图构造算法研究 北京交通大学 赵男 随着云计算技术的快速发展,很多与大规模数据处理相关的研究与应用都逐渐迁移到云计算环境中,如数据挖掘.网络搜索.图像处理以及生物信息分析等.对大规模的图数据处理技术也是当前高性能计算领域的研究热点.而在图论研究中,极图构造算法作为极图理论的一个重要研究内容,越来越受到人们的关注. 极图是指满足一定约定条件且边数最多的图,其构造算法产生大规模的临界图集合作为中间数据.传统的串行极图构造算法会因为需要处理的临界图数量的大幅增加而变得效

空间数据库中基于MapReduce的kNN算法研究

空间数据库中基于MapReduce的kNN算法研究 大连海事大学  刘彪 本文首次尝试设计了一种云环境下的倒排网格索引和在该索引基础上进行的基于MapReduce的空间kNN查询.本文所做的主要工作如下:(1)针对二维空间中的数据点,本文设计了一种分布式的倒排网格索引方法,该索引方法完全符合空间数据索引的标准一动态性和简单性.由于倒排网格索引具有松耦合和无共享的特殊结构,所以该索引比较适合基于MapReduce的大规模空问数据的并行查询.(2)本文提出了一种基于MapReduce的空间倒排网格索

一种基于机器学习的自动化鱼叉式网络钓鱼思路

2016年美国黑帽大会(BlackHat USA 2016)对与会的安全从业人员最关心的安全威胁进行调查,发现黑客们最关心的是:"Phishing,social network exploits, or other forms of social engineering ",该安全威胁占比46%,排名第一(2015年排名第二)[1]. 基于社会工程的网络虽攻击出现已久,一直是较为关注的一种有效攻击手段;尤其是鱼叉式网络钓鱼,因其成效显著且传统的安全性防御机制无法阻止这类攻击类型,仍然是

基于Hadoop的并行共享决策树挖掘算法研究

基于Hadoop的并行共享决策树挖掘算法研究 陈湘涛    张超   韩茜 共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物.针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT).该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT).该算法采用混合数据结构,在计算分裂指标阶段使用属性袁结构,在