MapReduce框架下Aprioi算法的改进

MapReduce框架下Aprioi算法的改进

王鑫 王喻红 于娇 葛冬梅

海量数据利用传统Apriori算法进行挖掘会浪费大量存储空间和通信资源,导致算法效率低下,因此,提出MapReduce框架下Aprioi算法的改进方法,首先采用水平划分的方法将MapReduce数据库分成n个独立的数据块,然后发送到采用动态负载均衡划分的m个工作节点上.每个节点扫描各自的数据块,产生局部候选频繁项集,计算每个候选频繁项集的支持度阈值并与最小支持度阈值进行比较以确定最终的频繁项集.改进后的算法可以减少各个节点之间的数据流动,只需要扫描两次事务数据库就能挖掘出全部频繁项集,节省扫描时间和存储空间,提高挖掘效率.

MapReduce框架下Aprioi算法的改进

时间: 2024-11-14 12:34:06

MapReduce框架下Aprioi算法的改进的相关文章

MapReduce框架下基于超平面投影划分的Skyline计算

MapReduce框架下基于超平面投影划分的Skyline计算 王淑艳 杨鑫 李克秋 近年来,Skyline计算在决策应用中起着越来越重要的作用.针对单机处理的研究已较为成熟.现今大数据爆炸,Skyline计算面临着大数据处理的问题.MapReduce是一个并行模型,广泛应用于数据密集型应用处理中.众所周知,MapReduce处理要求任务是可分解的.Skyline计算在MapReduce上执行时,分解任务的方法有网格划分.基于角度的划分等.网格划分仅在数据维度较低时表现良好:基于角度的划分适用于

MapReduce框架下的实时大数据图像分类

MapReduce框架下的实时大数据图像分类 张晶 冯林 王乐 刘胜蓝 图像数据作为大数据的重要组成部分蕴含着丰富的知识,且图像分类有着广泛的应用,利用传统分类方法已经无法满足实时计算的需求.针对此问题,提出并行在线极端学习机算法.首先利用在线极端学习机理论得到隐层输出权值矩阵;其次根据MapReduce计算框架的特点对该矩阵进行分割,以代替原有大规模矩阵累乘操作,并将分割后的多个矩阵在不同工作节点上并行计算;最后将计算节点上的结果按键值合并,得到最终的分类器.在保证原有计算精度的前提下,将文中

MapReduce在Hadoop平台下作业调度算法的改进和实现

MapReduce在Hadoop平台下作业调度算法的改进和实现 海南大学应用科技学院  解慧娟 该文在Hadoop实现的MapReduce架构基础上,分析了现有的三种作业调度算法,针对当前算法没有考虑服务器负载状况和数据本地性差的缺点,提出了基于可变长度队列的公平调度算法(FSVQ),该算法分析了空闲节点率,并通过采取等待的办法满足考虑数据本地性.实验证明该算法可增加服务器集群的工作效率,减少网络延迟,具有实际的应用意义. MapReduce在Hadoop平台下作业调度算法的改进和实现

适于进化算法的迭代式MapReduce框架

适于进化算法的迭代式MapReduce框架 金伟健  王春枝 MapReduce模块化的编程大大降低了分布式算法的实现难度,但同时也限制了它的应用范围.介绍了MapReduce的基本结构及其实现迭代算法的缺陷,并针对基于MapReduce进化算法效率低下的问题,在对MapReduce的计算框架进行研究的基础上提出了一种适用于进化算法的迭代式MapReduce计算框架.描述了迭代式MapReduce计算框架的实现需求及其具体实现,提出并证明了异常机制的可行性,且在公有的Hadoop云计算平台上对提

在Python的Flask框架下收发电子邮件的教程

  这篇文章主要介绍了在Python的Flask框架下收发电子邮件的教程,主要用到了Flask中的Flask-mail工具,需要的朋友可以参考下 简述 在大多数此类教程中都会不遗余力的介绍如何使用数据库.今天我们对数据库暂且不表,而是来关注另一个在web应用中很重要的特性:如何推送邮件给用户. 在某个轻量级应用中我们可能会添加一个如下的邮件服务功能:当用户有了新的粉丝后,我们发送一封邮件通知用户.有很多方法可以实现这个特性,而我们希望提供出一种可复用的通用框架来处理. Flask-Mail介绍

初级:.net框架下的MD5

.net框架 近日发现有程序员在.NET项目中自己编写MD5算法实现,为避免不必要的资源消耗,特撰此文. .NET框架下MD5实现已经集成于System.Web.Security名称空间,只需简单调用即获取结果:string 结果字符串=System.Web.Security.FormsAuthentication.HashPasswordForStoringInConfigFile(输入字符串,"MD5"); 以下包装函数根据code参数的不同(可取16或32),分别返回参数STR的

最短路径条数-spark graphx框架下怎样求两点间最短路径的条数

问题描述 spark graphx框架下怎样求两点间最短路径的条数 我使用spark的graphx图计算框架,现在要求一个图中所有节点对的最短路径条数, graphx下的pregel迭代貌似使用的是类迪杰斯特拉算法,要求最短路径长度很容易, 但是要求条数,我实在是想不出来怎么求,希望各位大神解答,最好能有源码,实在 没有,有思路也可以,万分感谢!!!

Google宣布将MapReduce框架MapReduce for C开源

摘要: 据GigaOM消息,Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了. Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了. Hadoop是许多大数据应用的基

更快、更强——解析Hadoop新一代MapReduce框架Yarn

对于业界的http://www.aliyun.com/zixun/aggregation/13982.html">大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,随着需求的发展,Yarn 框架浮出水面, @依然光荣复兴的 博客给我们做了很详细的介绍,读者通过本文中新旧 Hadoop MapReduce 框架的对比,更能深刻理解新的 yarn 框架的技术原理和设计思想. 背景 Yarn是一个分布式的资源管