基于MapReduce的分布式极图构造算法研究

基于MapReduce的分布式极图构造算法研究

北京交通大学 赵男

随着云计算技术的快速发展,很多与大规模数据处理相关的研究与应用都逐渐迁移到云计算环境中,如数据挖掘、网络搜索、图像处理以及生物信息分析等。对大规模的图数据处理技术也是当前高性能计算领域的研究热点。而在图论研究中,极图构造算法作为极图理论的一个重要研究内容,越来越受到人们的关注。 极图是指满足一定约定条件且边数最多的图,其构造算法产生大规模的临界图集合作为中间数据。传统的串行极图构造算法会因为需要处理的临界图数量的大幅增加而变得效率低下。MapReduce模型是目前在研究云计算相关问题时常被使用的编程模型,Hadoop项目是对该模型的开源实现,利用这个平台可以大大简化分布式编程的难度。 本文提出了一种基于MapReduce的分布式极图构造算法。在对串行极图构造算法深入分析的基础上提出了并行的实施方案,然后在Hadoop分布式基础平台上实现了极图构造的分布式并行算法。其中,各个map任务处理那些已被划分成数据块的临界图输入数据,reduce任务负责归并所有map任务产生的中间临界图数据并得到最终的图集合。 本文还进行了一系列对比试验,以验证所设计的分布式极图构造算法的有效性和执行效率。实验结果表明,该算法能够构造出不超过28个顶点且不含六边形的极图集合。与串行算法相比,该算法的整体加速比和执行效率分别为2.2645和75.48%。特别是,在构造具有19个顶点的不含六边形且边数不少于35的临界图集合时,其加速比和执行效率分别达到了2.7423和91.41%。

基于MapReduce的分布式极图构造算法研究

时间: 2024-07-31 17:14:17

基于MapReduce的分布式极图构造算法研究的相关文章

基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究 蔡斌雷 任家东 朱世伟 郭芹 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度

基于MapReduce编程模型的TFIDF算法研究

基于MapReduce编程模型的TFIDF算法研究 赵伟燕  王静宇 随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要.现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比.实验证明,

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

基于Hadoop的分布式服务注册中心研究和实现

基于Hadoop的分布式服务注册中心研究和实现 上海交通大学  杨柳 在分析了Web服务注册中心和云计算平台的基础上,本文提出了一种建立在云上的分布式服务注册中心的应用模型,称为HDSR (Hadoop-based Distributed Service Registry),它采用了Hadoop云平台来实现.该模型既可以支持基于服务行为的服务发现工作,也可以支持基于服务质量的服务发现工作.本文重点研究了服务数据的分布式存储与并行查询在Hadoop平台上的实现.在HDSR中,Hadoop分布式文件

基于云计算的受限玻尔兹曼机推荐算法研究

基于云计算的受限玻尔兹曼机推荐算法研究 郑志蕴  李步源  李伦  李钝 数据的指数级增长及算法本身的复杂性使受限玻尔兹曼机面临着计算效率的问题.在详细分析受限玻尔兹曼机的基础上,将受限玻尔兹曼机与Hadoop平台的并行计算架构相结合,提出基于云平台的受限玻尔兹曼机推荐算法.该算法通过复制机制解决数据相关性问题,并将传统的受限玻尔兹曼机过程分解为若干个Hadoop任务的循环,实现并行计算.实验结果表明,与在传统平台上的实现相比,基于Hadoop并行架构的受限玻尔兹曼机推荐算法在大体量数据集的条件

空间数据库中基于MapReduce的kNN算法研究

空间数据库中基于MapReduce的kNN算法研究 大连海事大学  刘彪 本文首次尝试设计了一种云环境下的倒排网格索引和在该索引基础上进行的基于MapReduce的空间kNN查询.本文所做的主要工作如下:(1)针对二维空间中的数据点,本文设计了一种分布式的倒排网格索引方法,该索引方法完全符合空间数据索引的标准一动态性和简单性.由于倒排网格索引具有松耦合和无共享的特殊结构,所以该索引比较适合基于MapReduce的大规模空问数据的并行查询.(2)本文提出了一种基于MapReduce的空间倒排网格索

基于MapReduce模型的排序算法优化研究

基于MapReduce模型的排序算法优化研究 金菁 MapReduce已经发展成为大数据领域标准的并行计算模型.理想情况下,一个MapReduce系统应该使参与计算的所有节点高度负载均衡,并且最小化空间使用率.CPU和I/O的使用时长以及网络传输开销.传统的算法往往只针对上述指标中的一种进行优化.在保持算法良好并行性基础上,对多个指标同时进行优化,提出了MapReduce优化算法的设计规范.针对数据处理领域最重要的排序算法进行理论分析,给出了多指标约束下的最后算法,并证明了该优化算法满足MapR

基于云计算平台的随机森林算法的研究与实现

基于云计算平台的随机森林算法的研究与实现 于延  王建华 随着网络时代海量数据的日渐普及,从中挖掘出有价值的信息成为当今社会的研究热点.本文针对构建随机森林的数据挖掘算法,提出了基于海量数据的分布式可扩展随机森林算法.该算法基于MapReduce分布式计算模型,可以高效地分析.处理海量数据,并且能够准确地对数据进行分类预测.大量的实验结果表明,本文提出的算法具有很好的可扩展性及高效性. 基于云计算平台的随机森林算法的研究与实现

【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:灵培.霹雳.哲予 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性.因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题.传统的Learning to Rank(LTR)方法主要是