Ruby中的类Google Map/Reduce框架Skynet介绍_ruby专题

Skynet是一个很响亮的名字，因为它是阿诺施瓦辛格主演的经典系列电影《终结者》里面的统治人类的超级计算机网络。不过本文的Skynet没这么恐怖，它是一个ruby版本的Google Map/Reduce框架的名字而已。

Google的Map/Reduce框架实在太有名气了，他可以把一个任务切分为很多份，交给n台计算机并行执行，返回的结果再并行的归并，最后得到运算的结果。据说Google一个搜索结果会Map到7000台服务器并行执行，这么多么可怕的分布式运算能力阿！有了Map/Reduce，程序员就可以在无需关注分布式框架的情况下，用简单的代码写出来健壮、并行的分布式应用程序，并且可以充分发挥计算机群集运算的能力。

如今能够实现Map/Reduce算法的框架已经有好几个了，其中最有名气的可能就是Yahoo发起的开源项目Hadoop，不过Hadoop并不是用ruby编写的，但在ruby的世界，Adam Pisoni已经开发出来了ruby版本的Map/Reduce框架，这就是Skynet。

Adam Pisoni开发Skynet的初衷是因为Adam Pisoni的公司Geni.com是一家定位于家族SNS的互联网网站。网站提供的新闻推送功能要求能够从大量的用户产生的信息当中提取特定用户感兴趣的内容，推送给用户。这实际上是一个分布式运算模型，要能够把任务分布到多台服务器上面执行，最后把任务归并回来。Adam Pisoni没有找到合适的框架，最终自己开发了Skynet，运用Map/Reduce算法来提供这个分布式运算平台。

用Skynet开发Map/Reduce的分布式应用程序非常简单，让我们举一个简单的例子看看吧：假设有一个1GB的文本文件，我们的任务是要统计该文件当中每个单词出现的次数统计。传统的做法当然很简单，顺序读入文件内容，进行单词统计就行了，但是毫无疑问，执行速度会很慢。如果我们有一个1000台服务器的运算群集，我们可以如何利用Skeynet来并发执行这个程序，从而缩短统计时间呢？

Map/Reduce算法的过程是：

1、Partition(划分数据)
把数据划分为1000份，这个过程由Skynet自动完成

2、Map
除了划分数据，还需要把运算该数据的代码也Map到每个运算节点上面去并发执行。这1000个节点各自执行自己的任务，执行完毕以后把执行结果返回

3、Partition
这1000分执行结果需要归并，于是我们再次划分数据，比方说划分为10份，这个过程也是Skynet自动完成的

4、Reduce
把Reduce代码和Reduce数据分发到10个节点执行，每个节点执行完毕返回数据。如果需要再次Reduce可以再次执行。最终Reduce为一个总共的结果。

其实Map/Reduce算法的原理是很简单的，好了，看看Skynet下面，我们怎么实现呢？其实我们需要编写的代码只有两个方法：一个map方法，告诉skynet如何执行每份数据，一个reduce方法，告诉skynet如何归并每份数据，所以这个并行算法最终用Skynet来写的话，也非常简单：

复制代码代码如下:

class MapreduceTest
    include SkynetDebugger

    def self.map(datas)
      results = {}
      datas.each do |data|
        results[data] ||= 0
        results[data] += 1
      end
      [results]
    end

    def self.reduce(datas)
      results = {}
      datas.each do |hashes|
        hashes.each do |key,value|
          results[key] ||= 0
          results[key] += value
        end
      end
      results
    end
end

这个就是一个最简单、但是完整ruby版本的Map/Reduce代码了。我们需要编写一个map方法，告诉skynet去统计每个单词的出现次数，我们还需要编写一个reduce方法告诉skynet去归并每个map的统计结果。好了，剩下所有的工作都归Skeynet接管了，是不是很简单！

当然要让这个Map/Reduce跑起来我们还需要做一些工作，比方说安装skynet，配置skynet的并行节点等等，这些琐碎的工作可以看看skynet自己的文档：http://skynet.rubyforge.org/doc/index.html，就不详述了。

值得一提的是Skynet可以和Rails框架良好的整合起来工作，你可以把Rails当中一些非常耗时、可以Map/Reduce的工作丢给Skynet去异步后台执行，比方说：

复制代码代码如下:

MyModel.distributed_find(:all, :conditions => “created_on < '#{3.days.ago}'”).each(:some_method)

把最近3天以来所有的model查询处理以后要执行的耗时操作some_method交给Skynet，让Skynet动用他强大的运算网络去执行。

还可以异步执行：

复制代码代码如下:

model_object.send_later(:method, options, :save)

把耗时的任务交给Skynet去异步执行。

对于拥有强大运算网络、并且需要进行大量耗时运算的web2.0网站来说，Skynet真是一个很棒的工具，他可以让程序员很简单的编写处理健壮而高效的分布式应用程序！

时间： 2024-09-19 20:21:47

Ruby中的类Google Map/Reduce框架Skynet介绍_ruby专题的相关文章

Ruby中的public、private、protected区别小结_ruby专题

重点关注private与protected public 默认即为public,全局都可以访问,这个不解释 private C++, "private" 意为 "private to this class", 但是Ruby中意为 "private to this instance". 意思是:C++中,对于类A,只要能访问类A,就能访问A的对象的private方法. Ruby中,却不行:你只能在你本对象的实例中访问本对象的private方法. 因

Ruby中Hash哈希结构的基本操作方法小结_ruby专题

关于哈希先来了解一下Hash的基本思路: 设要存储对象的个数为num, 那么我们就用len个内存单元来存储它们(len>=num); 以每个对象ki的关键字为自变量,用一个函数h(ki)来映射出ki的内存地址,也就是ki的下标,将ki对象的元素内容全部存入这个地址中就行了.这个就是Hash的基本思路. 为什么要用一个函数来映射出它们的地址单元呢? 假设现在我要存储4个元素 13 7 14 11 显然,我们可以用数组来存.也就是:a[1] = 13; a[2] = 7; a[3] = 14; a[

介绍Ruby中的模块与混合类型的相关知识_ruby专题

模块是组合在一起的方法,类和常量.模块两个主要好处: 模块提供了一个命名空间,并避免名称冲突. 模块实现混合工厂. 模块定义了一个命名空间,一个沙箱中方法和常量可以自由使用,而不必担心踩到其他的方法和常数. 语法: module Identifier statement1 statement2 ........... end 就像被命名为类常量模块中的常量,首字母大写.定义的方法看起来很相似,模块定义方法就像类的方法. 调用一个模块方法和类方法一样,通过模块的名称它名字前,引用一

Ruby中使用each和collect进行迭代的用法_ruby专题

迭代器是什么也不是,但集合的方法支持.存储一组数据成员的对象被称为集合.在Ruby中,数组和哈希可以被称为集合. 迭代器返回一个集合的所有元素,一前一后.我们将讨论两个迭代器,在这里,每个收集.让我们来看看这些细节. Ruby each 迭代: 每个迭代器返回一个数组的所有元素或哈希. 语法: collection.each do |variable| code end 在集合中的每个元素执行的代码.这里收集可能是一个数组或ruby哈希. 例子: #!/usr/bin/ruby ary = [1

在Ruby中处理文件的输入和输出的教程_ruby专题

Ruby 提供了一整套 I/O 相关的方法,在内核(Kernel)模块中实现.所有的 I/O 方法派生自 IO 类. 类 IO 提供了所有基础的方法,比如 read. write. gets. puts. readline. getc 和 printf. 本章节将讲解所有 Ruby 中可用的基础的 I/O 函数.如需了解更多的函数,请查看 Ruby 的 IO 类.puts 语句在前面的章节中,您赋值给变量,然后使用 puts 语句打印输出. puts 语句指示程序显示存储在变量中的值.这将在每

Ruby中使用Block、Proc、lambda实现闭包_ruby专题

闭包(Closure),是指未绑定到任何对象的自由代码,闭包中的代码与任何对象和全局变量无关,只与执行此段代码的上下文相关. 今天我们简要的看一下ruby中的闭包实现. Ruby中的闭包实现有:Block,Proc,Lambada. 首先,我们来看Block. 复制代码代码如下: ary = [1,2,3,4] ary.collect! do |a| a*a end ary.each do |a| puts a end 这段代码,我们使用了Array对象的blo

ruby中执行周期性任务(定时任务)的3种方法_ruby专题

1.前言无论是用ruby做系统管理,还是用rails做web开发,都可能遇到周期性任务,它们按照一定时间周期(1小时,2天......)持续地触发.在ruby中,我认为一次性任务使用sidekiq来完成是非常方便的,而周期性的任务就需要用到whenever,sidetiq,clockwork等等gem了. 2.whenever 首先,whenever是基于linux的cron服务的,所以,在windows平台上没有直接的方法使用该gem.whenever严格来说应该算一个cron的翻

Ruby中的Hash哈希类型基本操作方法小结_ruby专题

1.创建哈希:就像创建数组一样,我们可以通过Hash类来创建一个Hash实例: h1 = Hash.new #默认值为nil h2 = Hash.new("This is my first hash instance") #默认值为" This is my first hash instance": 上面两个例子都创建了一个空的Hash实例.一个Hash对象总是有一个默认的值--因为如果在一个Hash对象里没有找到指定的索引(key),将会返回默认值. 创建了Has

Ruby中的return、break、next详解_ruby专题

return,break,next 这几个关键字的使用都涉及到跳出作用域的问题,而他们的不同则在于不同的关键字跳出去的目的作用域的不同,因为有代码块则导致有一些地方需要格外注意. return 常用方式通常情况下的return语句和大家理解的意思是相同的. 复制代码代码如下: def m1 param if param == 1 return 'returned 1' end 'returned default value'#根据Ruby语言规范,最后一条执行语句的结果将作

猜你喜欢

如何在网页中嵌入Media player 播放流媒体文件

媒体|网页 Media Player两种版本播放器的嵌入代码,有相关说明(默认0为否,-1或1为是)不过代码还不全面,没有判断浏览器版本的参数程序代码: <object classid=&quo ...

SQL Server 2005：构造最简单的模糊查找包

1.打开 DTS 设计器. 2.创建一个新的 ETL 项目,添加一个新包,单击 Data Flow 选项卡,然后接受 add a data flow 项选项. 3.在数据流图上,从 Toolbox 拖 ...

RSS的兴旺：当它不再是RSS

最近RSS领域发生了几起事件.一个是Google继续它的扩张步伐,以一亿美金吞下了专业的RSS种子封装网站FeedBurner.com.另外一件则是国内的RSS浏览器GouGou.com归于热门下载软 ...

一个数据库操作类的实例（二.Provider类）

数据|数据库 using System;namespace com.joybase.DB{ /// <summary> /// 数据库连接提供类 /// </summary> ...

seo之外的七条建议让你获得seo成功

如果你问一个人是否想获得成功,答案自然是肯定的,但如果你观察他们,你会发现他们并不是对成功所要做的事情感兴趣,也没有在这方面投入. 大多数人只是想付出最少的努力来获得成功.这就是为什么博彩业为什么这么 ...

为WPS 2007添加剪贴画

WPS Office 2007在很多功能上进行了改进和优化,插入菜单下也增加了插入"剪贴画"项,但不知你注意没有,WPS Office 2007中可用的剪贴画资源少得可怜,只有10 ...

网页不显示验证码是怎么回事？

故障分析:首先先考虑的是不是你的网速不给力的原因,导致验证码迟迟不显示,多刷新几次看看能不能显示就可以了.其次浏览器的兼容性,比如你用的是谷歌的话,可以换个ie浏览器试试.也可能是你的cookie ...

TMP是什么文件？TMP文件用什么打开？

首先说明的是tmp文件是可以打开的,只是这个文件打开也没任何实际用处罢了.为什么这么说?这还要从tmp文件在windows系统中的功能将起: tmp是什么文件? tmp的名称由来是Temporary的 ...

Mac怎么下载安装中国银行安全控件？

一.安装提示: 当用户用苹果浏览器(Mac)访问中国银行个人网银时,如果未安装密码安全控件或密码安全控件版本太低,密码输入框栏位出现提示信息提醒用户下载最新的密码控件并安装. 二.解决方法: 可以 ...

代码重构：代码的坏味道

原文如下: 1. [代码]students.xml ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 <?xml version=" ...

文件系统-fuse挂载hadoop的问题

问题描述 fuse挂载hadoop的问题我想把hadoop挂在到linux本地文件系统上,看到网上说用fuse可以实现,于是照着步骤一步步下来,但是到编译libhdfs的时候出现问题了,提示说bui ...

网络爬虫与Web安全

网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域.搜索引擎使用 ...

c语言-keil编译时的出现问题，不懂

问题描述 keil编译时的出现问题,不懂 Build target 'Target 1' compiling Text1.c... --- Error: can't execute 'C:KeilC5 ...

android-Android渐变图片绘制时出现难看的条纹

问题描述 Android渐变图片绘制时出现难看的条纹原图显示使用的是: mCanvas.drawBitmap(). 只有这种渐变的图片才会. 解决方案这是图片颜色值的问题,android会转成 ...

数据库中批量插入数据的方法，记录一下。

If using SQL Server, SqlBulkCopy.WriteToServer(DataTable) SqlBulkCopy.WriteToServer Method (DataTabl ...

面试题大全

模拟电路 1.基尔霍夫定理的内容是什么? 基尔霍夫定律包括电流定律和电压定律电流定律:在集总电路中,任何时刻,对任一节点,所有流出节点的支路电流的代数和恒等于零. 电压定律:在集总电路中,任何时刻 ...

中缀试转后缀试及前缀试并计算其结果

/* 参考大神nb的代码,感觉思路不错!终于搞明白了!一开始不明白在计算表达式的时候,利用栈到底做了什么!现在感觉我们利用栈就是模拟我们书面上计算表达式, 将优先级高的运算先计算出来,然后放进栈中,等 ...

pkg-config

pkg-config is computer software that provides a unified interface for querying installed libraries f ...

mvcpager-用MvcPager进行分页的时候出现无法刷新图片及dropdownlist无法跳转页面

问题描述用MvcPager进行分页的时候出现无法刷新图片及dropdownlist无法跳转页面如图,每次只有默认的首页的图片会显示,但例如点"下一页"的时候就会出现图一的情况, ...

metadata-hive建hbase关联表报错

问题描述 hive建hbase关联表报错 hadoop-2.5.2 ,hbase-1.0.1.1,hive-0.9.0 hive> CREATE TABLE hbase_table_1(key ...

中国教育：聪明伶俐进去，呆若木鸡出来

侄子在读高二,考了一道历史题:成吉思汗的继承人窝阔台,公元哪一年死?最远打到哪里?答不出来,我帮他查找资料,所以到现在我都记得,是打到现在的匈牙利附近. 在一次偶然的机会,我发现美国世界史这道题目不是 ...

c++问题求解！！！！！！！！！！！

问题描述 c++问题求解!!!!!!!!!!! 3.小型公司人员管理.某小型公司有四类人员:总经理.技术人员.销售经理.推销员.设计一个基类employee,派生出manager(总经理).techn ...

CentOS 4.4的下载及安装过程

CentOS是当前最流行的商业版 Linux --Red Hat Enterprise Linux(RHEL)的克隆版.它和 RHEL 的区别除了没有 RHEL一样的http://www.aliyun ...

LEI不导数据了

问题描述 LEI不导数据了,所有的定时的LEI都出现同样问题,不起作用了,这些LEI是DirectTransferActivity,从Notes导数据到SQL,现在数据都不更新,导致很多报表不能更新l ...

无服务计算是未来

无服务计算现在已经是IT领域最流行但也最令人迷惑的词了.当我第一次听到无服务计算这个词的时候,我一笑置之,认为它和其他毫无意义的流行语一样.作为一名IT运营工程师,这个词还是很令人困惑的,因为它还是要 ...

jQuery技巧讲解

1.关于页面元素的引用通过jquery的$()引用元素包括通过id.class.元素名以及元素的层级关系及dom或者xpath条件等方法,且返回的对象为jquery对象(集合对象),不能直接调用dom ...

javascript-微场景制作怎么实现喷漆效果

问题描述微场景制作怎么实现喷漆效果微场景制作怎么实现喷漆效果,要有动画效果,就是喷漆的面漆不停变大

你一生追求的是利益还是快乐?

俗话说,做事先做人,<论语>中关于做人的道理有许多,但曾子说其实只有一条,夫子之道,忠恕而已.忠恕二字的前提就是要知道自己的心在哪里.现代社会有太多的评判标准,如果我们的心迷失了方向,就根 ...

Silverlight+WCF 新手实例象棋主界面-棋盘区(二十二)

在线演示地址:Silverlight+WCF 新手实例象棋在线演示这节我们要布局Index.xaml界面. 首先,我们定义一下全局的宽和高:1000*620[数字差不多就行了] 一堆代码,都 ...

PHP判断远程图片或文件是否存在的实现代码_php技巧

最简单的方法就是用fopen(),看看文件能否打开,能打就文件当然就存在复制代码代码如下: <?php$url = 'http://www.jb51.net/images/test.jpg' ...

热搜