Spark Streaming 不同Batch任务可以并行计算么?

关于Spark Streaming中的任务有如下几个概念:

  • Batch
  • Job
  • Stage
  • Task

其实Job,Stage,Task都是Spark Core里就有的概念,Batch则是Streaming特有的概念。同一Stage里的Task一般都是并行的。同一Job里的Stage可以并行,但是一般如果有依赖则是串行,可以参考我这篇文章Spark 多个Stage执行是串行执行的么?

Job的并行度复杂些,由两个配置决定:

  1. spark.scheduler.mode(FIFO/FAIR)
  2. spark.streaming.concurrentJobs

我们知道一个Batch可能会有多个Action执行,比如你注册了多个Kafka数据流,每个Action都会产生一个Job,所以一个Batch有可能是一批Job,也就是JobSet的概念,这些Job由jobExecutor依次提交执行,而JobExecutor是一个默认池子大小为1的线程池,所以只能执行完一个Job再执行另外一个Job。这里说的池子,他的大小就是由spark.streaming.concurrentJobs 控制的。

concurrentJobs 其实决定了向Spark Core提交Job的并行度。提交一个Job,必须等这个执行完了,才会提交第二个。假设我们把它设置为2,则会并发的把Job提交给Spark Core,Spark 有自己的机制决定如何运行这两个Job,这个机制其实就是FIFO或者FAIR(决定了资源的分配规则)。默认是FIFO,也就是先进先出,你把concurrentJobs设置为2,但是如果底层是FIFO,那么会优先执行先提交的Job,虽然如此,如果资源够两个job运行,还是会并行运行两个Job。

我们搞个例子来论证下上面的结论:

object JobTest {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setAppName("test")
    conf.setMaster("local[2]")
    conf.set("spark.streaming.concurrentJobs", "2")
    val sc = new StreamingContext(conf, Seconds(10))

    val input = new TestInputStream[String](sc, Seq(Seq("1", "2", "3"), Seq("1", "2", "3"), Seq("1", "2", "3")), 2)
    val input2 = new TestInputStream[String](sc, Seq(Seq("1", "2", "3"), Seq("1", "2", "3"), Seq("1", "2", "3")), 2)

    input.map{f=>
      Thread.sleep(5000)
      f
    }.foreachRDD(f=>f.count())

    input2.map{f=>
      Thread.sleep(5000)
      f
    }.foreachRDD(f=>f.count())

    sc.start()
    sc.awaitTermination()

  }
}

源码github地址

上面的TestInputStream的签名如下:

class TestInputStream[T: ClassTag](_ssc: StreamingContext, input: Seq[Seq[T]], numPartitions: Int)
  extends InputDStream[T](_ssc) {

所以TestInputStream其实就是我Mock的一个数据源,最后numPartitions表示的是分区数。这里,我们把concurrentJobs设置为2,意味着TaskScheduler接受到了两个Job,然后setMaster[local(2)]表示只可以并发执行两个Task。

因为input,input1每个batch至少都有3个元素,每个元素需要运行5秒,所以有一个task需要运行两个元素,那么第一次input1需要运行10秒。input1在运行五秒后,空出了一个线程,这个时候input的job开始运行,到第十秒的时候,input1完成,input开始运行也已经完成一个元素的计算,这个时候启动另外两个元素运行。所以input1花了10秒,input花了15秒,但是因为input被延时了五秒才得以运行,所以input1其实相当于花了20秒。

这里你会好奇,为啥我先声明的input,接着再申明的input1,但是input1却先运行呢?因为这两个数据源对应的job是被并发提交的,有一定的随机性。如果你多启动几次,你会发现input对应job id有可能是0,也有可能是1。

还有两点值的注意的是:

  1. job id的产生是在job提交的时候才产生,而不是job在产生的时候生成的。
  2. job被提交后会直接进入Scheduler的pool,在scheduler给你分配资源的时候,虽然说FIFO是先按job id 小的优先处理,但是job id大的先进来,在分配资源的时候,小的还没进来呢,所以job id 大的可能被优先执行了。

上面的流程解说解释的是下面这张图:

接着呢,input2在剩下两条记录处理的10秒过程中,其实第二个周期已经开始了,input的任务又得以开始运行,这个时候因为只有一个线程可以用,所以运行了两个元素,input1处理完成,空出线程,第二个周期的input1继续调度,input的剩下的一个元素也继续运行,最后input,input1都花了15秒。

有点绕,如果大家迷惑,可以把代码贴在自己的IDE上运行一下,然后观察他们的交错时间。
如果我们再做个调整:

conf.setMaster("local[4]")
    conf.set("spark.streaming.concurrentJobs", "3")
    conf.set("spark.scheduler.mode", "FIFO")
    val sc = new StreamingContext(conf, Seconds(5))

你会发现,不同batch的job其实也可以并行运行的,这里需要有几个条件:

  1. 有延时发生了,batch无法在本batch完成
  2. concurrentJobs > 1
  3. 如果scheduler mode 是FIFO则需要某个Job无法一直消耗掉所有资源

Mode是FAIR则尽力保证你的Job是并行运行的,毫无疑问是可以并行的。

回到我们的标题,不同Batch的job有可能会同时在运行么,只要满足我前面提到的三个条件,就有可能。

时间: 2024-09-14 08:09:10

Spark Streaming 不同Batch任务可以并行计算么?的相关文章

Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑.这也得益于Scala编程语言的简洁性.这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算. 我们的应用场景是分析用户使用手机App的行为,描述如下所示: 手机客户端会收集用户的行为事件(我们以点击

Spark Streaming原理简析

执行流程 数据的接收 StreamingContext实例化的时候,需要传入一个SparkContext,然后指定要连接的spark matser url,即连接一个spark engine,用于获得executor. 实例化之后,首先,要指定一个接收数据的方式,如 val lines = ssc.socketTextStream("localhost", 9999) 这样从socket接收文本数据.这个步骤返回的是一个ReceiverInputDStream的实现,内含Receive

Spark Streaming Crash 如何保证Exactly Once Semantics

前言 其实这次写Spark Streaming相关的内容,主要是解决在其使用过程中大家真正关心的一些问题.我觉得应该有两块: 数据接收.我在用的过程中确实产生了问题. 应用的可靠性.因为SS是7*24小时运行的问题,我想知道如果它Crash了,会不会丢数据. 第一个问题在之前的三篇文章已经有所阐述: Spark Streaming 数据产生与导入相关的内存分析 Spark Streaming 数据接收优化 Spark Streaming Direct Approach (No Receivers

《Spark官方文档》Spark Streaming编程指南(一)

Spark Streaming编程指南 概览   Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性.高吞吐量和容错性.Spark Streaming支持从多种数据源提取数据,如:Kafka.Flume.Twitter.ZeroMQ.Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:map.reduce.join和window等.最后,Spark Streaming支持将处理完的数据推送到文

Spark Streaming Programming Guide

参考,http://spark.incubator.apache.org/docs/latest/streaming-programming-guide.html  Overview SparkStreaming支持多种流输入,like Kafka, Flume, Twitter, ZeroMQ or plain old TCP sockets,并且可以在上面进行transform操作,最终数据存入HDFS,数据库或dashboard 另外可以把Spark's in-built machine

利用Spark Streaming实现分布式采集系统

前言 前两天我刚在自己的一篇文章中鼓吹数据天生就是流式的,并且指出: 批量计算已经在慢慢退化,未来必然是属于流式计算的,数据的流动必定是由数据自己驱动流转的. 而Spark Streaming 在上层概念上,完美融合了批量计算和流式计算,让他们你中有我,我中有你,这种设计使得Spark Streaming 作为流式计算的一个载体,同时也能作为其他一些需要分布式架构的问题提供解决方案. Spark Streaming 作为一些分布式任务系统基础的优势 天然就是分布式的,不用再为实现分布式协调而蛋疼

Spark Streaming 误用.transform(func)函数导致的问题解析

问题描述 今天有朋友贴了一段 gist,大家可以先看看这段代码有什么问题. 特定情况你会发现UI 的Storage标签上有很多新的Cache RDD,然后你以为是Cache RDD 不被释放,但是通过Spark Streaming 数据清理机制分析我们可以排除这个问题. 接着通过给RDD的设置名字,名字带上时间,发现是延时的Batch 也会产生cache RDD.那这是怎么回事呢? 另外还有一个问题,也是相同的原因造成的:我通过KafkaInputStream.transform 方法获取Kaf

Spark Streaming 流式计算实战

这篇文章由一次平安夜的微信分享整理而来.在Stuq 做的分享,原文内容.  业务场景 这次分享会比较实战些.具体业务场景描述: 我们每分钟会有几百万条的日志进入系统,我们希望根据日志提取出时间以及用户名称,然后根据这两个信息形成 userName/year/month/day/hh/normal  userName/year/month/day/hh/delay 路径,存储到HDFS中.如果我们发现日志产生的时间和到达的时间相差超过的一定的阈值,那么会放到 delay 目录,否则放在正常的 no

Spark Streaming 1.6 流式状态管理分析

关于状态管理 在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了.而状态管理对Spark 的 RDD模型是个挑战,因为在spark里,任何数据集都需要通过RDD来呈现,而RDD 的定义是一个不变的分布式集合.在状态管理中,比如Spark Streaming中的word-count 就涉及到更新原有的记录,比如在batch 1 中  A 出现1次,batch 2中出现3次,则总共出现了4次.这里就有两种实现: 获取batch 1