用机器学习流程去建模我们的平台架构

Spark 提供了一个新的体系,spark.ml。 相对于spark.mllib,这是一个更高层的对机器学习流程的一个抽象。然而,你会神奇的发现这套抽象,竟然也适合服务平台的设计与建模。更让我印象深刻的是,一个合适的抽象,简直就像真理一样。譬如RDD这种就是一个和神一般的抽象,它使得Spark成为了一个非常通用的平台,囊括了流式计算,离线计算,机器学习,图计算等多个领域。

spark.ml 在一开始就提出了五个概念。这五个概念也完全可以对一个通用的service platform进行建模和抽象。我们来看看。

五个主要概念

服务的本质是数据的流转。

  • Transformer。 我们的每一个服务节点,都是一个数据转换器。譬如你开发的一个Spark Streaming程序,一个Storm程序,一个Tomcat Web服务,都是一个Transformer。
  • Estimator 。支撑Tranformer运行的框架平台。他是解决一类问题的支撑平台。通常我们会有很多不同类型的Estimator,比如MR,比如Spark,比如Storm,比如Tomcat。他们分别解决各自领域的类的问题。比如Storm适合运行你开发的实时类的Transformer,MR则适合运行你开发的批量数据处理的Transformer,Tomat则适合支撑Web类的Transformer。
  • Parameter 。 每个Transformer都有自己的参数,每个Estimator有自己的参数。Parameter就是所有参数的集合。
  • Pipeline。 Pipeline 其实是由互通的Transformer构建起来的一段网状结构。每一个Transformer 以自己作为Root节点,都会向下延伸出一个树状节点。
  • DataFrame。数据框。各个Transformer之间交换数据的规范。Transformer 将一种DataFrame transform 成另一种DataFrame。

通用的建模

最终你会发现,我们的整个服务体系就是一个由Transformer,Pipeline构建起来的网状结构。如果我们跳出公司的视野,你会发现整个公司的网状服务体系只是全世界网络体系的一小部分。整个互联网是一张大网。这就说明,整个互联网其实也是可以通过上面五个概念进行涵盖。

我们部署服务到底是一件什么样的事情

你可能觉得这个问题会比较可笑。然而,如果之前我们提出的概念是正确或者合理的,让我们离真理更近了一步的话,那么它应该能够清晰的解释,我们部署或者下线一个服务,或者一个服务故障,到底是什么?

先说部署上线新服务,其实就是新建了一个Transformer,无论这个Transformer是一个Web服务,直接面向用户,或者是一个类似中转的器的角色,譬如将Kafka里的数据消费然后填充到搜索系统里,他都导致了一个(或者多个)新的PipeLine的产生。Transformer的作用是将数据连接了起来,并且将数据转化成一个我们需要的形态,如此而已。下线或者服务故障则是类似的。

这个理论对我们来说有什么意义

答案是指导我们如何去思考问题。

我们不希望每次遇到一个新的业务问题,都需要根据自己的聪明才智,通过经验,得到一个解决方案。任何事情都是有迹可循的。正如吴文俊提出的机器证明,可以通过流程化的方式让计算机来证明几何问题。当面临一个新的业务问题的时候,我们应该有标准的流程可以走。

以构建一个搜索服务为例子。搜索本身是一个Transformer,他需要把数据transform成索引,当用户进行查询的时候,搜索会对索引的数据再次进行transform,返回给客户。也就是进行了两次大的transform。

下面是进行平台设计时我觉得比较合适的一个想法

当设计一个平台的时候,我们只要关注Estimator就好,我们必须已经有大量的以及随时具备上线新的Estimator的能力。 之后面对实际的各种业务需求,应该由基于这些Estimator的Transformer去应对,构建Transformer主要考虑两点:

  • 需要将哪些原来没有Pipeline的的Tranformer连接起来
  • 如何对数据进行Transform

对于一个新的业务需求,如何进行考虑呢?

  1. 和哪些已有的Transformer 建立 Pipeline?
  2. DataFrame是否需要经过新的Transformer 转换,这个Pipeline才能正常工作?
  3. 如果有新的Transformer,如何选择合适的Estimator?

罗列已有的Transformer

搜索要获取数据,那么就是要新建一个Pipeline,也就是要和已经存在的一个Transformer(数据源)建立连接。所以现有的数据源(假设是Kafka)是我们已知的,并且要建立Pipeline的Transformer。

DataFrame是否需要经过新的Transformer 转换,这个Pipeline才能正常工作
经过调研我们发现,数据源的信息并不能直接被搜索给接受,所以一个新的Transformer IndexDataCollector就诞生了。通过IndexDataCollector我们可以把Kafka和搜索给关联起来。

如何选择合适的Estimator?
Estimator的概念的提出,就是希望我们的应用应该是不关心服务环境的,应该是往Estimator提交,就能让Transformer运行并且产生作用。所以我们优先推荐采用可以跑在Yarn/Mesos这种将服务器屏蔽的资源调度平台上的Estimator。这里,IndexDataCollector 需要的Estimator 应该是Storm或者Spark Streaming。采用这种类型Estimator的好处是,我们仅仅按规则(Estimator的接口规范)开发一个应用,提交给集群就能方便的将Kafka和搜索这两个原来不存在的Pipeline的Transformer连接起来,从而满足新的需求。

结束语

个人认为大部分业务需求都可以按如上的步骤去考虑。万物互通,一个好的抽象应该具有普适的价值。虽然原先这套理论是针对机器学习流程抽象出来的,但是你会发现它也适用于其他的问题。事实上,你会发现机器学习中处理的环节和要素和我们在做平台架构或者处理新的业务需求的过程是如此的相似。

时间: 2024-11-03 21:56:00

用机器学习流程去建模我们的平台架构的相关文章

大规模机器学习流程的构建与部署

文章讲的是大规模机器学习流程的构建与部署,现在有许多的机器学习算法实现是可以扩展到大数据集上的(其中包括矩阵分解.SVM.逻辑回归.LASSO 等等).实际上,机器学习专家们很乐于指出的一点是:如果你能把机器学习问题转化为一个简单的数值优化问题,你就几近成功了. 当然,现实的问题是,很多机器学习项目是没法简化成一个简单的优化问题的.因此数据科学家们不得不去管理和维护复杂的数据项目,加之他们所要分析的问题经常也需要特定的机器学习流程.上游流程中每个阶段的决策影响下游流程的结果,因此流程中模块的连接

PDMS设备平台梯子建模出图-平台建模

PDMS设备平台梯子建模出图-平台建模 通过开发程序OcadePlatform,方便各种平台的建立,如矩形平台.环形平台或其他异形平台. 图1 卧式设备平台模型 图2 环形平台模型 OcadePlatform正在开发中,如果你有任何意见.建议,或索取试用版,请发邮件到:eryar@163.com

云计算深度学习平台架构与实践的必经之路

定义云深度学习平台什么是云深度学习?随着机器学习的发展,单机运行的机器学习任务存在缺少资源隔离.无法动态伸缩等问题,因此要用到基于云计算的基础架构服务.云机器学习平台并不是一个全新的概念,Google.微软.亚马逊等都有相应的服务,这里列举几个比较典型的例子. 定义云深度学习平台什么是云深度学习?随着机器学习的发展,单机运行的机器学习任务存在缺少资源隔离.无法动态伸缩等问题,因此要用到基于云计算的基础架构服务.云机器学习平台并不是一个全新的概念,Google.微软.亚马逊等都有相应的服务,这里列

为什么选择这样的大数据平台架构?

当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数据平台的各类技术介绍也不少,但在那个机制.那个环境.那个人才.那个薪酬体系下,对于传统企业,可借鉴的东西也是有限的. 技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径. 与传统的更多从技术的角度来看待大数据平台架构的方式不同,笔者这次,更多的从业务的视角来谈谈关于大数据架构的理解,即更多的会问为什么要采用这个架构,到底能给业务带来多大价值,实践的最终结果是什么. 它不一定具有通用性

基于微服务和Docker容器技术的PaaS云平台架构设计

本文讲的是基于微服务和Docker容器技术的PaaS云平台架构设计[编者的话]在系统架构上,PaaS云平台主要分为微服务架构.Docker容器技术.DveOps三部分,这篇文章重点介绍微服务架构的实施. [3 天烧脑式容器存储网络训练营 | 深圳站]本次培训以容器存储和网络为主题,包括:Docker Plugin.Docker storage driver.Docker Volume Pulgin.Kubernetes Storage机制.容器网络实现原理和模型.Docker网络实现.网络插件.

万达网络科技的DevOps平台架构解析

转载本文需注明出处:微信公众号EAWorld,违者必究. 目录: 一.万达DevOps平台建设历程 二.平台架构解析 三.建设过程中的难点分享 四.总结 一.万达DevOps平台建设历程 本文讲的是万达网络科技的DevOps平台架构解析,我们从2017年2月份开始帮助万达网络科技建设DevOps平台,2017年6月份完成试运行上线交付.目前万达网络科技公共平台研发中心的所有产品和项目都已经通过DevOps平台管理起来,实现了全面的持续集成.持续交付等能力,并持续进行过程度量和改进,不断提升IT运

小米深度学习平台架构与实现

内容来源:2016年12月16日,小米云平台深度学习研发工程师陈迪豪在"GIAC 全球互联网架构大会"进行<支撑百度搜索引擎99.995%可靠名字服务架构设计>演讲分享.IT大咖说作为独家视频合作方,经主办方和讲者审阅授权发布.阅读字数:2783 | 4分钟阅读 嘉宾演讲视频和PPT地址 http://t.cn/R9ONt8f 机器学习与深度学习应用 机器学习是通过机器进行自主学习数据而非以编码的方式:深度学习是机器学习的一个分支,主要包括四种最基本的网络结构. CNN是卷

大数据平台架构技术选型与场景运用

一.大数据平台 大数据在工作中的应用有三种: 与业务相关,比如用户画像.风险控制等; 与决策相关,数据科学的领域,了解统计学.算法,这是数据科学家的范畴; 与工程相关,如何实施.如何实现.解决什么业务问题,这是数据工程师的工作. 数据工程师在业务和数据科学家之间搭建起实践的桥梁.本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面. 如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集.数据存储

大数据下的数据分析平台架构

随着互联网.移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被"逼上梁山".多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上. Hadoop在可伸缩性.健壮性.计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业