Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline

1.6 机器学习工作流和Spark pipeline


在本节中,我们介绍机器学习工作流和Spark pipeline,然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的。

学习完本节,读者将掌握这两个重要概念,并且为编程和实现机器学习工作流的Spark pipeline做好准备。

机器学习的工作流步骤

几乎所有的机器学习项目均涉及数据清洗、特征挖掘、模型估计、模型评估,然后是结果解释,这些都可以组织为循序渐进的工作流。这些工作流有时称为分析过程。

有些人甚至定义机器学习是将数据转化为可执行的洞察结果的工作流,有些人会在工作流中增加对业务的理解或问题的定义,以作为他们工作的出发点。

在数据挖掘领域,跨行业数据挖掘标准过程(CRISP-DM)是一个被广泛接受和采用的标准流程。许多标准机器学习的工作流都只是CRISP-DM工作流某种形式上的变型。

 

正如上图所示,任何标准CRISP-DM的工作流都需要以下所有的6个步骤:

1.业务理解

2.数据理解

3.数据准备

4.建模

5.评估

6.部署

一些人可能会在其中补充分析方法选择和结果解释,以使其更加完整。对于复杂的机器学习项目,会有一些分支和反馈回路,使工作流程变得非常复杂。

换句话说,有一些机器学习的项目,在我们完成模型评估之后,可能会回到建模甚至是数据准备的步骤。在数据准备步骤之后,我们可以将其分为两种以上的建模类型分支。

时间: 2024-09-23 09:02:18

Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline的相关文章

Apache Spark源码走读(三)Spark on Yarn &Spark源码编译 &在YARN上运行SparkPi

<一>Spark on Yarn 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准.其主要职责将是分布式计算集群的管理,集群中计算资源的管理与分配. Yarn为应用程序开发提供了比较好的实现标准,Spark支持Yarn部署,本文将就Spark如何实现在Yarn平台上的部署作比较详尽的分析. Spark Standalone部署模式回顾 上图是Spark Standalone Cluster中计算模块的简要示意,从

Spark的这些事&amp;lt;三&amp;gt;——spark常用的Transformations 和Actions

Transformations map,filter spark最长用的两个Transformations:map,filter,下面就来介绍一下这两个. 先看下面这张图: 从上图中可以清洗的看到 map和filter都是做的什么工作,那我们就代码演示一下. val input = sc.parallelize(List(1,2,3,4)) val result1 = input.map(x=>x*x) val result2 = input.filter(x=>x!=1) print(res

小弟近期在学习spark编程,请问各位大神spark可以处理视频文件吗?

问题描述 小弟近期在学习spark编程,请问各位大神spark可以处理视频文件吗? spark创建RDD的形式可以是 val text = sc.textFile("hdfs://......") 或者是 val text = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10), 3) 但这些都是对文本文件或者数组的操作,它能否对视频文件进行操作 比如 games.mp4 请各位大神不吝赐教

【Spark Summit EU 2016】从使用Spark Streaming中所学到的经验

本讲义出自Miklos Christine在Spark Summit EU 2016上的演讲,简单介绍了DataBricks,并主要介绍了Spark Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题:类型不匹配.无法找到主要偏移量.toDF不属于RDD成员.任务不是序列化的以及有关JSON记录的相关问题.

Spark机器学习9· 实时机器学习(scala with sbt)

Spark机器学习 1 在线学习 模型随着接收的新消息,不断更新自己:而不是像离线训练一次次重新训练. 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors.消息队列.Flume.Kafka.-- http://spark.apache.org/docs/latest/streaming-programming-guide.html 类群(lineage):应用到RDD上的转换算子和执行算子的集合 3 MLib+Streaming应用 3.0 build

《Scala机器学习》一一3.5 Spark的性能调整

3.5 Spark的性能调整 虽然数据管道的高效执行是任务调度器优先考虑的,这是Spark驱动的一部分,有时Spark需要人为给出一些提示.Spark调度主要与两个参数有关:CPU和内存.当然其他资源(如磁盘和网络I/O)也在Spark性能方面发挥重要作用,但目前Spark.Mesos或YARN都不能主动管理它们. 要监控的第一个参数是RDD的分区数,可以从文件中读取RDD时明确指定.常见的Spark错误是分区太多,这样做需要提供更多的并行性.当任务开始/结束时间相对较小的情况下,这样做也可以工

【Spark Summit East 2017】Intel与Spark共同助推机器学习与深度学习

本讲义出自Ziya Ma在Spark Summit East 2017上的演讲,主要介绍了人工智能对于目前各个行业的深刻变革并将继续释放大量的能量,并且讲述了人工智能目前需要更进一步提升的需求点,并且介绍了应对人工智能的需求,Intel所研发的BigDL大数据分析框架. BigDL特性与CAFEE以及TORCH相似,对于用户和开发者而言,BigDL非常易于使用,并且所需成本比较低,而且能够使得深度学习在大数据平台上易于扩展,而且能够在单点上具有较高的性能.

Apache Spark技术实战(三)利用Spark将json文件导入Cassandra &amp;SparkR的安装及使用

<一>利用Spark将json文件导入Cassandra 概要 sbt cassandra spark-cassandra-connector 实验目的 将存在于json文件中的数据导入到cassandra数据库,目前由cassandra提供的官方工具是json2sstable,由于对cassandra本身了解不多,这个我还没有尝试成功. 但想到spark sql中可以读取json文件,而spark-cassadra-connector又提供了将RDD存入到数据库的功能,我想是否可以将两者结合

机器学习之——认识机器学习

前段时间,google的alphaGo让大家的眼睛都聚焦到这一"人工智能"上了.那么就当时应景吧,写一写我关于机器学习的一些笔记及认识,内容主要根据在Coursera上Andrew Ng大神的课程来做笔记. 首先,什么是机器学习? 参照百度百科的讲解,"机器学习是一门多领域交叉学科,设计概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习能力,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能."什么意思呢