适于进化算法的迭代式MapReduce框架

适于进化算法的迭代式MapReduce框架

金伟健  王春枝

MapReduce模块化的编程大大降低了分布式算法的实现难度,但同时也限制了它的应用范围。介绍了MapReduce的基本结构及其实现迭代算法的缺陷,并针对基于MapReduce进化算法效率低下的问题,在对MapReduce的计算框架进行研究的基础上提出了一种适用于进化算法的迭代式MapReduce计算框架。描述了迭代式MapReduce计算框架的实现需求及其具体实现,提出并证明了异常机制的可行性,且在公有的Hadoop云计算平台上对提出的框架进行了验证。实验结果表明,基于迭代式MapReduce计算框架的并行遗传算法在算法的加速比上与基于MapReduce的并行遗传算法相比有较大的提高。

适于进化算法的迭代式MapReduce框架

时间: 2024-09-20 08:51:50

适于进化算法的迭代式MapReduce框架的相关文章

Hadoop教程:PayPal的Hadoop迭代式计算框架--Guagua

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   如何利用大数据训练风险控制的数学模型一直以来都是PayPal在欺诈交易检测的挑战.PayPal在风险控制模型训练上大致经历过四个阶段: 决策树:早期PayPal使用简单的决策树模型,主要是由于早期的模型训练的数据量比较小,决策树模型的结果易于解释.逻辑回归:当PayPal的业务越来越 复杂,分控模型也随之越来越复杂,使用逻辑回归可以很容易的处理更大的数据量以及更

Guagua:PayPal的Hadoop迭代式计算框架

如何利用大数据训练风险控制的数学模型一直以来都是PayPal在欺诈交易检测的挑战.PayPal在风险控制模型训练上大致经历过四个阶段: 决策树:早期PayPal使用简单的决策树模型,主要是由于早期的模型训练的数据量比较小,决策树模型的结果易于解释.逻辑回归:当PayPal的业务越来越 复杂,分控模型也随之越来越复杂,使用逻辑回归可以很容易的处理更大的数据量以及更多的特征:而且PayPal的线上风控服务可以快速实现这些逻辑回归的数学模型.神经网络:为了弥补逻辑回归特征数量的限制,PayPal使用了

《Hadoop与大数据挖掘》——2.6 TF-IDF算法原理及Hadoop MapReduce实现

2.6 TF-IDF算法原理及Hadoop MapReduce实现 2.6.1 TF-IDF算法原理 原理:在一份给定的文件里,词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的次数.这个数字通常会被正规化,以防止它偏向长的文件(同一个词语在长文件里可能会比在短文件里有更高的词频,而不管该词语重要与否).逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量.某一特定词语的IDF可以由总文件数目除以包含该词语的文件的数

MOEA Framework 1.12发布 多目标进化算法的Java框架

MOEA Framework 是一个用于开发和试验用多目标进化算法(MOEAs)的Java库,还用于其他通用的http://www.aliyun.com/zixun/aggregation/18684.html">优化算法和元启发式.同时提供了一些算法包括:NSGA-II.ε-MOEA.GDE3 和 MOEA/D. MOEA Framework 1.12该版本提高了C++/C++接口,它允许写在C/C++的框架运行优化问题.已更新网站上的例子来证明这一点的C/C++接口. 软件信息:htt

MapReduce框架下Aprioi算法的改进

MapReduce框架下Aprioi算法的改进 王鑫 王喻红 于娇 葛冬梅 海量数据利用传统Apriori算法进行挖掘会浪费大量存储空间和通信资源,导致算法效率低下,因此,提出MapReduce框架下Aprioi算法的改进方法,首先采用水平划分的方法将MapReduce数据库分成n个独立的数据块,然后发送到采用动态负载均衡划分的m个工作节点上.每个节点扫描各自的数据块,产生局部候选频繁项集,计算每个候选频繁项集的支持度阈值并与最小支持度阈值进行比较以确定最终的频繁项集.改进后的算法可以减少各个节

《Storm技术内幕与大数据实践》一1.2 其他流式处理框架

1.2 其他流式处理框架 1.2.1 Apache S4Apache S4(http://incubator.apache.org/s4/)是由Yahoo开源的多用途.分布式的.可伸缩的.容错的.可插入式的实时数据流计算平台. S4填补了复杂的专有系统和面向批处理的开源计算平台之间的差距.其目标是开发一个高性能计算平台,对应用程序开发者隐藏并行处理系统固有的复杂性.S4已经在Yahoo!系统中大规模使用,目前最新版本是0.6.0. S4相对于Storm在可靠性和容错性上差一些,S4不保证完全不丢

进化算法可以不再需要计算集群,开普敦大学的新方法用一块GPU也能刷新MNIST记录

雷锋网 AI 科技评论按:进化算法和生成式对抗性网络GANs类似,提出时大家都觉得是很好的想法,可以帮人类极大地拓展行为和想象空间,然而找到好的.可控的实现方法却没那么简单.GANs方面现在已经有了许多的成果,但是进化算法仍然停留在较为初期的状态,无法生成大规模.复杂的网络,需要的计算资源也是在计算集群的级别上. 不过,进化算法的研究也是一步步在"进化"的,最近这项来自南非开普敦大学的研究就带来了新的发现,只用单块GPU的资源就进化出了理想的网络结构,还刷新了三项测试的结果.雷锋网(公

迭代式产品开发的核心思想与理念

文章描述:论迭代式的产品开发方法. 对基础构思的完善和原型化 一款游戏从创意到开发,抽象来看可以分为两大阶段:基础构思的阶段,和迭代开发的阶段.任何游戏在最早的时候都只是一个或者一组零散而不确定的构想,策划人员将这组构想加以整理,抽取其中相互联系的规则组成核心规则集,这就是产品最初的框架.譬如说俄罗斯方块最初的规则可能包括:方块连成一行就消除并加分:头顶随机掉落新的方块:方块可旋转,等. 一般来说,在这个阶段,游戏开发者会寻求利用这组核心规则建立一个简单的DEMO,用来验证游戏本身的可玩性.这个

Google宣布将MapReduce框架MapReduce for C开源

摘要: 据GigaOM消息,Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了. Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了. Hadoop是许多大数据应用的基