Guagua:PayPal的Hadoop迭代式计算框架

  如何利用大数据训练风险控制的数学模型一直以来都是PayPal在欺诈交易检测的挑战。PayPal在风险控制模型训练上大致经历过四个阶段:

决策树:早期PayPal使用简单的决策树模型,主要是由于早期的模型训练的数据量比较小,决策树模型的结果易于解释。逻辑回归:当PayPal的业务越来越
复杂,分控模型也随之越来越复杂,使用逻辑回归可以很容易的处理更大的数据量以及更多的特征;而且PayPal的线上风控服务可以快速实现这些逻辑回归的数学模型。神经网络:为了弥补逻辑回归特征数量的限制,PayPal使用了神经网络来训练特征值达到
上千个的数学模型,
但是由于没有分布式的训练框架和产品,训练数据一直受到单机的限制。分布式的神经网络和逻辑回归:Hadoop迭代式计算框架Guagua出现,解决了大数据的分布式训练问题,这样PayPal的所有风控数学模型不再有单机的数据限制,而且目前支持的最大模型的特征数量已经超过了
2500个。

&">nbsp;

  其中,Hadoop迭代式计算框架Guagua是PayPal的一个开源机器学习框架Shifu的子项目,已经于今年四月开源。

  张彭善是 PayPal Risk Data Science部门的研发工程师,在PayPal一直致力于使用Hadoop解决风险控制数学模型的特征提取、训练及验证等工作,是Shifu和 Guagua的主要开发人员。InfoQ中文站编辑近日对张彭善进行了采访,了解这个框架的开发背景和应用状况。

InfoQ:首先问一下,这个框架为什么取了Guagua这个名字?

张彭善:这个 名字的得来其实很随意。去年公司装修期间,我在家开发Guagua的时候,苦于没有一个合适的名字,我随手翻了本我儿子平时比较喜欢的一本故事书,看到上 面一只小鸭子叫“呱呱”,我当时随手就用了这个名字。后来等到Guagua成型,一直想换一个名字,但是那时Guagua在公司内部已经有了很大的知名 度,而且我的同事帮我设计了一个非常漂亮的Logo,Guagua就一直沿用至今了。

InfoQ:风险控制训练的业务特点是什么?

张彭善:风险控制数学模型的主要特点是训练数据量大、模型特征多、模型通用性低等等。

InfoQ:其训练的算法有什么样的特点?业内都有哪些公开的或者你了解的方法,各自有什么特点和不同?

张彭善:它的训练方法和其它的分类问题并没有太多不同,唯一比较大的不同是如何利用大数据来训练数学模型。业内有很多相关的算法,决策树、逻辑回归、神经网络、SVM等等,但是主要都是单机实现。即便是Apache Mahout也并没有把分类模型的分布式做好(Mahout中逻辑回归和神经网络均为单机算法)。

InfoQ:为什么要开发Guagua?换句话说,Guagua为什么是更适合你们业务特点的框架?

张彭善:在 PayPal,Guagua主要解决的是机器学习分类模型的分布式训练问题,以往我们并没有分布式模型的训练框架或者产品,我们只能通过抽样来把我们的训 练数据限定在单机规模。此外,由于单机计算资源和内存的限制,我们以前训练一个风控模型需要10小时左右的时间。使用Guagua,数据和计算都在 Hadoop之上实现了分布式,不仅训练数据达到了我们之前不敢想象的TB级别,而且训练时间也由10小时左右减少到1小时左右,且最终的模型没有比单机 有任何的性能损失。

InfoQ:Guagua现在哪些地方满足了你的要求,哪些方面还不完善,计划做哪些工作改进它?

张彭 善:Guagua主要解决了模型训练的分布式问题,现在PayPal可以利用大数据快速训练风控数学模型。同时Guagua并没有将自己局限在分类模 型,Guagua是一个基于Hadoop的迭代式计算框架,几乎任何基于迭代的算法都可以利用Guagua为其添加分布式功能。此外由于Guagua对分 布式的良好支持,我们以前许多想做又不能做的工作比如模型特征自动选取都可以得以进行。

Guagua目前主要支持的是同步的Master-Workers结构的迭代式计算框架,今后我们希望能够支持异步方式的迭代计算框架,2012年Google MapReduce之父Jeff Dean发表了一篇论文,上面提到了对神经网络深度模型的支持,文章介绍他们的DistBelief框架训练的神经网络的数学模型可以支持10亿级别的参数。这也是Guagua的另一个方向,支持超大规模的深度神经网络模型。

时间: 2024-08-01 18:16:37

Guagua:PayPal的Hadoop迭代式计算框架的相关文章

Hadoop教程:PayPal的Hadoop迭代式计算框架--Guagua

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   如何利用大数据训练风险控制的数学模型一直以来都是PayPal在欺诈交易检测的挑战.PayPal在风险控制模型训练上大致经历过四个阶段: 决策树:早期PayPal使用简单的决策树模型,主要是由于早期的模型训练的数据量比较小,决策树模型的结果易于解释.逻辑回归:当PayPal的业务越来越 复杂,分控模型也随之越来越复杂,使用逻辑回归可以很容易的处理更大的数据量以及更

适于进化算法的迭代式MapReduce框架

适于进化算法的迭代式MapReduce框架 金伟健  王春枝 MapReduce模块化的编程大大降低了分布式算法的实现难度,但同时也限制了它的应用范围.介绍了MapReduce的基本结构及其实现迭代算法的缺陷,并针对基于MapReduce进化算法效率低下的问题,在对MapReduce的计算框架进行研究的基础上提出了一种适用于进化算法的迭代式MapReduce计算框架.描述了迭代式MapReduce计算框架的实现需求及其具体实现,提出并证明了异常机制的可行性,且在公有的Hadoop云计算平台上对提

JStorm-Alibaba —— Storm 的实时流式计算框架

JStorm是参考storm的实时流式计算框架,在网络IO.线程模型.资源调度.可用性及稳定性上做了持续改进,已被越来越多企业使用.经过4年发展,阿里巴巴JStorm集群已经成为世界上最大的集群之一,基于JStorm的应用数量超过1000个.数据显示,JStorm集群每天处理的消息数量达到1.5PB. 在2015年,JStorm正式成为Apache Storm里的子项目.JStorm将在 Apache Storm里孵化,孵化成功后会成为Apache Storm主干. 文章转载自 开源中国社区 [

一文读懂大数据计算框架与平台

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等.随着互联网.物联网等技术得到越来越广泛的应用,数据规模不断增加,TB.PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务.而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等工作,并且要考虑计算机或网络发生故障时的数据安全,情况要复杂得多. 举一个简单的例子,假设我们要从销售记录中

【独家】一文读懂大数据计算框架与平台

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等.随着互联网.物联网等技术得到越来越广泛的应用,数据规模不断增加,TB.PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务.而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等工作,并且要考虑计算机或网络发生故障时的数据安全,情况要复杂得多. 举一个简单的例子,假设我们要从销售记录中

常见计算框架算子层对比

背景 前段时间在为内部自研的计算框架设计算子层,参考对比了一些开源的计算框架的算子层,本文做一个粗粒度的梳理. 下面这张图是我对计算框架抽象层次的一个拆分,具体可以参考上周日杭州Spark meetup上我做的Spark SQL分享 slides. Pig-latin Hadoop MR上的DSL,面向过程,适用于large-scale的数据分析.语法很美,可惜只适合CLI . A = load 'xx' AS (c1:int, c2:chararray, c3:float) B = GROUP

浅谈Storm流式处理框架(转)

       Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据.但是,Hadoop的缺点也和它的优点同样鲜明--延迟大,响应缓慢,运维复杂.       有需求也就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来.而在这个节骨眼上Storm横空出世了.       Storm带着流式计算的标签华丽丽滴出场了,看看它的一些卖点: 分布式系统:可横向拓展,现在的项目不带个分布式特性都不好意思开源. 运维简单:S

《Storm技术内幕与大数据实践》一1.2 其他流式处理框架

1.2 其他流式处理框架 1.2.1 Apache S4Apache S4(http://incubator.apache.org/s4/)是由Yahoo开源的多用途.分布式的.可伸缩的.容错的.可插入式的实时数据流计算平台. S4填补了复杂的专有系统和面向批处理的开源计算平台之间的差距.其目标是开发一个高性能计算平台,对应用程序开发者隐藏并行处理系统固有的复杂性.S4已经在Yahoo!系统中大规模使用,目前最新版本是0.6.0. S4相对于Storm在可靠性和容错性上差一些,S4不保证完全不丢

说说阿里增量计算框架Galaxy

增量计算模型 (一) 背景 Galaxy是阿里数据平台事业部,实时计算组自研的增量计算框架.今年双十一,阿里直播大屏就是Galaxy支持和保障的重要业务之一,相信大家可能看过双十一之后网上一些介绍性的文章了,比如 阿里研发实时计算平台 每秒运算量将超千万 ,不过这篇文章面向非技术人员,最后的比喻也是有点醉.还这篇比较新的  阿里巴巴实时数据公共层助力双11媒体直播 . 本文我会介绍一些我认为可以公开出来说的galaxy技术上的特点,让技术人员对该计算框架有个更准确的认识. 计算模型 首先明确根本