【分布式计算】MapReduce的替代者-Parameter Server

首先还是要声明一下，这个文章是我在入职阿里云1个月以来，对于分布式计算的一点肤浅的认识，可能有些地方不够妥善，还请看官可以指出不足的地方，共同进步。

一.背景

随着互联网的发展，数据量的增大，很多对于数据的处理工作（例如一些推荐系统、广告推送等）都迁移到了云端，也就是分布式计算系统上。衍生了很多牛逼的分布式计算的计算模型，比较著名的就是MapReduce、MPI、BSP等。后来也产生了一些分布式计算系统，大家耳熟能详的Hadoop就是基于MapReduce实现的。

本文的主人公是Parameter Server，其实也不算是新宠了，这个模型已经被提出好几年了，只不过在国内还不是特别热。不过最近一些云服务巨头们开始了对于PS的深入开发和研究。

引用一位算法大神的话简单描述下什么事Parameter Server：总结是一种计算模型SSP+一种分布式设计看板模式Client+Server(partitioned table)+基于算法的调度策略(Scheduler)。可能有些同学还不太理解这句话，没关系，下面通过一个实例来介绍一下PS。

二.场景

因为我在学习PS的过程中是对照Map Reduce来学习的。所以也通过一个机器学习算法的并行计算的实例，来比较Map Reduce和PS。为了更好地突出PS的优势，这里用到的算法是一个梯度逼近最佳结果的一种算法-逻辑回归（Logical Regression）。

为了更好地帮大家理解这些内容，我也罗列了一些必须的知识储备：: 1.逻辑回归算法-最好fork里面的代码看一下
2.随机梯度下降SGD
3.李沐大神实现的一个PS开源库，上面有一个论文，一定要读
4.并行逻辑回归-等会会借用里面的内容来讲
5.ps开源代码网站

三.Work Flow

首先还是要补充几句，Map-Reduce在实现并行算法的过程中有它的优势，但是也有很大的弊端，它在处理梯度问题上没有很好的效率。这一点PS通过client+server的模式很好的解决了这个问题。

1.Map-Reduce处理LR

首先来看下Map-Reduce是如何解决逻辑回归（下文统一称为LR）的。首先是map的过程，将很大的数据切割成key-value的形式，我们在这里假设所有的数据都是稠密的。比如说你有100行数据，切割成5份，那么每一个worker就处理其中的20行数据。Reduce主要是负责统一worker的计算结果。下面具体到LR的算法实现来讲解下Map-Reduce的过程。

先来看看整体的流程图：

第一步：首先是进行map阶段对于长尾数据的分割，我们假设数据是稠密非稀疏的。逻辑回归的并行计算的数据分割，可以按行分、按列分或者行列一起分。分好的数据通过key-value的形式传到每一个worker中，对应上图的map phase阶段的worker。当然，map里也包含LR的计算逻辑，逻辑请大家看上面的资料自己学习下。分割图如下：

第二步：利用随机梯度（SGD）方法逼近最优解，在凸函数中LR是可以无限接近最优模型的，可以通过限定循环次数和收敛条件来实现。这其中就有一个问题，认真研究LR的同学可能会发现，如果我们使用SGD的话，因为worker之间虽然有一定的通信机制，但是并不是实时同步的，所以每一个worker并不知道对方的梯度是多少，形象的描述一下就是我们可以把SGD看成一个下坡问题。

每个worker都在往终点方向下山（收敛模型），但是它们彼此间并不能实时协作，也就是说A不知道B爬到哪里，C不知道A爬到哪里。传入一个路径，我就接着向下爬一点，可能会走重复的路径。所以说Map-Reduce的SGD是一种范围的梯度。每个worker不一定一直往下走，可能走走停停甚至往后走一点，但是因为数据量巨大总是可以走到终点的。 但是这样就会浪费了很多效率，这也就是Parameter Server重点解决的问题。

第三步：负责reduce的服务器统一出一个模型输出。

2.Parameter Server的一些机制

下面我们看下Parameter Server是怎么解决这个问题。首先看下PS的总体架构，PS是由client和server组成的，client对应于上文的worker，负责计算。server是负责统一所有的client它们的参数，server间是联通的。
如下图：

总体来看，PS的优势是通过server来协同client的输出，如上一节的下山问题，PS可以协同每一个client按照一个方向直线下山，从而提高了效率。而这其中也有很多的技术细节需要考虑。

1）.并行化设计
PS可以运用很多并行化的思想从而提高效率。
（1）首先在client端，计算和上传数据是采用的多线程机制，计算和数据传输在不同的线程中进行从而增加了效率。同时server并不是等待所有参数都上传完成，才向下分发的。如果一个client_a计算比较慢，server可以暂时不采用client_a的数据，而采用历史数据。
（2）数据上传也可以用树状结构代替直接上传，在client和server之间增加一层树状结构可以提高数据传输效率，节约server的处理资源。可以从下图的左边，变为右边。

2）.pull和push机制
首先，是在client端应该上传怎样的数据，因为每个client节点都会不停的接受和反馈数据给server，那么到底应该push怎样的数据上去呢？这个一般来讲是选择步长最长的参数，也就是最大的梯度值的参数push上去。

3）.server端的异构形式
因为每个client只处理一部分参数，server端需要将这些参数拼接起来，所以server端是一个异构的组成形式。

3.Parameter Server处理LR

上面讲了很多PS的机制，这里具体说一下PS怎么实现LR。因为LR的输出是一个线性的回归模型。输出的结果是下面的这种式子：
z=w1*x1+w2*x2…..+w10*x2+….
我们要求的是里面的w1，w2，w3….这些参数，在PS中每个client计算的是其中的某些△w。通过server将这些△w同步上去，然后再push下去继续迭代计算。这样的好处是对于梯度问题，每个client可以沿着一个方向走。

后话：我的理解还很浅，具体实现还有非常多的技术细节要敲定，部署在集群上也会出现各种问题，如：log怎么输出，有的client挂了怎么办等等。建议有空可以看下李沐的开源项目的代码，还有上面提到的一些文档。

作者微信公众号：凡人机器学习

长期分享机器学习实战相关信息，感谢关注！

本文来自博客 “李博Garvin“
转载请标明出处:http://blog.csdn.net/buptgshengod]

时间： 2024-08-31 04:20:02

【分布式计算】MapReduce的替代者-Parameter Server的相关文章

基于参数服务器（Parameter server）的PS-SMART算法

前天第二届阿里云安全算法挑战赛终于胜利结束了,得了个季军,虽然名次不是最理想的,不过很高兴能认识一大群数据达人,整个比赛的过程也很让人享受.这次比赛过程中我在对网页内容进行分析的时候,部分内容使用了基于Parameter Server的PS-SMART进行分析.我看了一下,好像其他队伍都没有用这个算法,就想给大家简单介绍一下. 我用PS-SMART的原因主要要有2个: 1,节省资源,虽然PS-SMART跑起来感觉比较慢,不过很省资源,很适合这次算法赛(资源有限制). 2,支持稀疏矩阵,可以直接对

【分布式计算】DFS &amp;&amp; BigTable

1.背景分布式计算的发迹应该是google在2003年发表的三篇paper,分别是GFS.MapReduce.BigTable.其中MapReduce大家都很熟悉了,不懂的同学也可以看看我之前写的文章[分布式计算]MapReduce的替代者-Parameter Server 为什么google会搞分布式计算这件事儿呢,因为在那个年代每天会产生几个T的日志,但是当时的磁盘只允许存储几百G的文件,07年之前淘宝的所有数据都是用完就删除的,因为没地方存.后来,人们认识到数据是值钱的,所以需要一种存储

阿里云机器学习平台编程模型演进之路

票选最美云上大数据暨大数据技术峰会上,阿里云大数据事业部高级专家九丰为大家带来题为"阿里云机器学习平台编程模型演进之路"的演讲.本文主要从机器阿里云机器学习平台PAI开始谈起,重点分享了PAI分布式机器学习平台的多种编程模型,包括MapReduce.Parameter Server和MPI等,也简谈了TensorFlow和Pluto. 以下为精彩内容整理: 随着训练数据规模的持续扩大,模型特征的持续增长,常用的机器学习算法面临着越来越多的挑战.从很多人熟悉的R语言,到基于MPI的多

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

简介 PAI目前已经上线了支持多机.多卡.多PS Server的TensorFlow服务,目前只支持华北2 Region.华北2 Region因为支持多机多卡功能,适用于大规模数据的训练,相关服务需要收费,有需要的相关机构可以联系我们. 原理说明 Parameter Server节点:用来存储TensorFlow计算过程中的参数.配置多个PS节点,计算参数将会被自动切片并存储在不同的PS节点中,从而减小Worker和PS节点通信过程中的带宽限制的影响. Worker节点:"多机多卡"中

组策略错误报告Windows Server 2008 R2解决方法

本文主要介绍了Windows Server 2008 R2组策略的错误报告解决.结合环境拓补图让我们自己学习下有关的组策略解决方案. 之前我们向大家介绍了组策略与桌面管理相结合保护用户数据安全.其实在Windows Server 2008 R2中,微软增加了1000多个Windows Server 2008 R2和Windows 7特有的组策略对象及多个新组件,用来扩充Windows 活动目录组策略管理的核心能力.但组策略的基本功能没有变化,但具有更多的选项和设置.下面的一例事件是我在日常工作

MapReduce with MongoDB and Python[ZT]

MapReduce with MongoDB and Python 从 Artificial Intelligence in Motion 作者:Marcel Pinheiro Caraciolo (由于Artificial Intelligence in Motion发布的图在墙外,所以将图换到cnblogs) Hi all, In this post, I'll present a demonstration of a map-reduce example with MongoDB and

大规模数据的分布式机器学习平台

来自阿里云IDST褚崴为大家带来分布式机器学习平台方面的内容,主要从大数据的特点和潜在价值开始讲起,然后介绍阿里的业务场景中常用到的机器学习算法,以及阿里采用的分布式机器学习框架,最后介绍了PAI算法平台,一起来看下吧. 大数据的特点和潜在价值我们正在步入大数据的时代,大数据至少具备以下四个特点: 海量样本:数据的规模巨大,特征非常多,每40个月翻一番,数据管理复杂: 内容多样:非结构化数据.异质数据,每天产生的数据里有图像.语音.视频,还有各类传感器产生的数据,各种定位的信息,交易记录-

大数据分析你不能不懂的6个核心技术

目前,大数据领域每年都会涌现出大量新的技术,成为大数据获取.存储.处理分析或可视化的有效手段.大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度. 1.大数据生命周期图1展示了一个典型的大数据技术栈.底层是基础设施,涵盖计算资源.内存与存储和网络互联,具体表现为计算节点.集群.机柜和数据中心.在此之上是数据存储和管理,包括文件系统.数据库和类似YARN的资源管理系统.然后是计算处理层,如hadoop.MapRe

大数据基础设施论坛：如何构建符合大数据时代的网络基础设施？

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 2014中国大数据技术大会第二日上午的大数据基础设施论坛上,Mellannox亚太区市场开发总监刘通.武汉绿色网络信息服务有限责任公司

猜你喜欢

java-关于学习Java的电脑配置

问题描述关于学习Java的电脑配置网上看到一款组装的笔记本,配置如下:CPU英特尔赛扬J1800,内存4G,硬盘320G,不知用来学习java,以及数据库等行不行.请各位大神不吝赐教解决方案开 ...

企业网站的价值不要让网站只是个摆设

现在的企业,无论大小几乎都会有自己的一个网站,然而他们的网站中,真正能发挥作用的,真正可以利用起来的,几乎是微乎其微,大部分企业站都像摆设一样,做完了就扔那不管了,何用之有? 下面我结合自己几年来做企 ...

简介Javascript的10个设计缺陷

前几篇文章,我经常说Javascript的设计不够严谨,有很多失误. 今天的这一篇,前半部分就谈为什么会这样,后半部分将列举Javascript的10个设计缺陷. 我参考的文献主要是Douglas C ...

ASP.NET控件开发基础(17)

本篇将开始介绍如自定义数据绑定控件,这里感谢很多人的支持,有你们的支持很高兴. 这里首先需要大家熟悉asp.net模板控件的使用,还有自定义模板控件.因为数据绑定控件多是基于模板控件的. 一.回顾如 ...

PS合成海面上漂浮的岛屿

效果图包括海面及岛屿两部分.合成的时候先把海洋背景做好;然后用泥土素材做出岛屿,适当增加大树及一些鸟类装饰即可. 最终效果 1.创建一个大小为800px * 1140px白色背景.将海洋图片素材拖 ...

几何画板把文本依附于点图文步骤

几何画板把文本依附于点图文步骤比如要把文本依附于点,具体的操作步骤如下: 步骤一打开几何画板,在空白区域绘制点A,使用"文本工具"输入文字:跟随点A运动 ...

javascript六种数据类型以及特殊注意点

这篇文章主要介绍了javascript六种数据类型以及特殊注意点,有需要的朋友可以参考一下在js中常见的六种数据类型:String类型.Null类型.Number类型.Boolean类型.Obje ...

Softimage 3D热键功能汇总

热键功能 F1Model 视图 F2Motion 视图 F3Actor 视图 F4Matter 视图 F5Tools 视图 F8物体模式(OBJ) F9顶点模式(TAG) F10.中心点模式(CR ...

管理大数据隐私：主动出击战略(1)

似乎所有人都在关注大数据,甚至包括美国联邦政府.美国联邦贸易委员会(FTC)去年年底向数据经纪行业的9家公司发出命令,要求他们提供对客户数据收集和使用情况的信息.FTC的行动明确表明,虽然大数据的兴起 ...

ios SBAppTags 隐藏应用图标

问题描述 ios SBAppTags 隐藏应用图标 ios SBAppTags 我在模拟器下运行没有问题,为何在真机下不起作用,系统ios 8.2 解决方案一样的问题请问你解决了吗?

利用RegisterStartupScript执行js怎么传递在代码中数组 js中又该如何接

问题描述在代码中有数组需要传递给js怎么传递js中如何接js中需要弹出一窗口又如何把数组传递给该窗口解决方案解决方案二:可以通过showModalDialog的第二个参数来传入参数,也可以通过u ...

试用WB Editor2离线blogging工具

无意中看到 WB Editor 2 is a .NET blog client tool that supports posting to MSN spaces, uploading images t ...

项目经理修炼之道(1) -- 给软件开发建模 .

#成为项目经理是需要积累的,如果你想快,但不想付出,那求神拜佛比较好. #这系列文章是写给想成为项目经理,但又愿意努力的人的. 当我们开发软件的时候,很多人知道要为目标软件建模,好开发需求. 而成为项 ...

Jsp+div+css 新建一个iframe(src是一个新的JSP页面)

问题描述我用JSP+DIV+CSS模拟出一个模态的弹窗(新建了一个iframe,存放新的JSP页面),当我关闭新页面时(按钮在新的Jsp中),如何关闭这个页面和DIV 解决方案解决方案二:在ifr ...

Get一手外媒报道搜狗海外搜索带你看欧冠

最近你的朋友圈被欧冠刷屏了吗?相信前几日的"巴萨逆袭战"让全球球迷都沸腾了.巴萨以总分6比5逆转巴黎晋级八强,在为全球球迷上演一场精彩比赛的同时,媒体和球迷评论也成为欧冠赛事之外的 ...

php实现的支持imagemagick及gd库两种处理的缩略图生成类_php技巧

本文实例讲述了php实现的支持imagemagick及gd库两种处理的缩略图生成类及其用法实例,非常具有实用价值.分享给大家供大家参考.具体如下: 一.功能: 1.按比例缩小/放大 2.填充背景色 3 ...

其实真正疯狂的,还是那能让人疯狂的钱

过年的时候,蒋方舟的一篇<凯撒的归凯撒,上帝的归凯撒>刷爆了朋友圈.许多创业者都被蒋方舟的"创业成为新时代的上山下乡"的比喻所刺痛,愤怒地拿起笔来反击.我也读到了不少核 ...

地理信息行业的大数据发展与应用

摘要: 如今,大数据为地理信息行业发展带来了新的机遇.伴随大数据技术的发展,地理信息采用的各种新技术也在不断涌现.大数据表现出体量大.变化速度快.模态多样.真伪难辨等特征,但背后隐藏的价值巨大.随着大 ...

函数类型做参数-Swift函数类型作函数参数与闭包有什么区别？

问题描述 Swift函数类型作函数参数与闭包有什么区别? 各路大神,请指教啊 func printIntNum(add: (Int, Int) -> Int, a: Int, b: Int) { ...

winform-C# (WinForm) 调用Vlc ActiveX 边播边保存的问题？求助

问题描述 C# (WinForm) 调用Vlc ActiveX 边播边保存的问题?求助 (安装的VLC 是2.1.5版本的) 我现在调用vlc activex 插件,能够播放一个VGA信号器的信号 ...

《时代周刊》：用形象化的老办法对付大数据

威廉-普莱费尔(William Playfair)生于1759年在家里排行老四父亲是上进的苏格兰大臣.他年纪轻轻便当上瓦特的个人助理随后从事制图.会计.工程.经济.银匠.土地投机.记者等多种职业取得大 ...

以全新的模式为用户提供网络时代最佳的智慧生活体验

"刚刚在海尔商城预定了模卡电视,期待快点收到宝贝."网友"玻璃纤维"在微博上与好友分享了自己成功订机的喜悦.据了解,目前已有千余名网友成功预定海尔模卡电视,而成 ...

数码视讯过会创业板实力派股东云集

在2010年创业板第12次审核通过的企业中,北京数码视讯科技股份有限公司(下简称数码视讯)的靓丽股东背景惹人关注,三家上市公司歌华有线.力合股份和电广传媒投资参股,达晨创投.深圳市中科远东创业投资有限 ...

如何成功建立人力资源系统

(3)成功建立人力资源系统店铺在哪些方面的核心竞争能力最终能够支持其在市场中的地位,最关键的还是要靠内部的人员来实现,这就是店铺对内部人员的整体要求:什么样的员工能够在店铺中生存和发展,并且能够支持 ...

CentOS下重置MySQL的root密码的教程_Mysql

本人在CentOS6.4上安装万mysql后,无法通过root进入,因为安装的时候,并没有设置root密码,似乎有个初始随机密码,但是不记得了,太麻烦,直接重置root密码. 首先,你必须要有操作系统 ...

免费php虚拟空间[10 MySQL+php]

*免费php虚拟空间 500MB以上磁盘空间 * 5 GB的带宽 * 10 MySQL数据库 * 10子 * 5插件域 * 5寄放网域 * 10个电子邮件帐户 *交友 *导游 * PHP的 * CGI ...

objective-c 语法快速过（6）内存管理原理

内存管理基本原理(最重要) 移动设备的内存极其有限(iphone 4内存512M),每个app所能占用的内存是有限制的(几十兆而已). 当app所占用的内存较多时,系统会发出内存警告,这时得回收一些不 ...

可否新增头像字段，在注册或修改昵称一起实现？

问题描述可否新增头像字段,在注册或修改昵称一起实现?现在头像实现起来太麻烦了.为什么不能在注册和修改用户的时候一起实现? 解决方案其实可以根据自己的用户体系做一个本地数据持久化的方案环信 ...

安全经过广州火车站攻略

没有去过广州火车站,因为根本就不敢去,听说非常的恐怖--其一:千万不要相信任何主动向你打招呼的人.尤其是那些号称是你朋友的朋友的人,很多情况下,他们都是骗子.其二:不要在车站周围打公用电话.私人的公用 ...

大数据的风险和现存问题

"大数据"成为2012年的关键词汇,被认为将会带来生活.工作与思维的重大变革.谷歌.亚马逊等互联网企业在利用大数据方面所做的工作使数据行业看到了新的发展路径.大数据在教育.医疗.汽 ...

热搜