《深入理解Spark:核心思想与源码分析》——3.12节Spark环境更新

3.12　Spark环境更新
在SparkContext的初始化过程中，可能对其环境造成影响，所以需要更新环境，代码如下。

postEnvironmentUpdate()
postApplicationStart()

SparkContext初始化过程中，如果设置了spark.jars属性， spark.jars指定的jar包将由addJar方法加入httpFileServer的jarDir变量指定的路径下。spark.files指定的文件将由addFile方法加入httpFileServer的fileDir变量指定的路径下。见代码清单3-49。
代码清单3-49　依赖文件处理

val jars: Seq[String] =
    conf.getOption("spark.jars").map(_.split(",")).map(_.filter(_.size != 0)).toSeq.flatten

val files: Seq[String] =
    conf.getOption("spark.files").map(_.split(",")).map(_.filter(_.size != 0)).toSeq.flatten

// Add each JAR given through the constructor
    if (jars != null) {
        jars.foreach(addJar)
    }

    if (files != null) {
        files.foreach(addFile)
}
httpFileServer的addFile和addJar方法，见代码清单3-50。
代码清单3-50　HttpFileServer提供对依赖文件的访问
def addFile(file: File) : String = {
    addFileToDir(file, fileDir)
    serverUri + "/files/" + file.getName
}

def addJar(file: File) : String = {
    addFileToDir(file, jarDir)
    serverUri + "/jars/" + file.getName
}

def addFileToDir(file: File, dir: File) : String = {
    if (file.isDirectory) {
        throw new IllegalArgumentException(s"$file cannot be a directory.")
    }
    Files.copy(file, new File(dir, file.getName))
    dir + "/" + file.getName
}

postEnvironmentUpdate的实现见代码清单3-51，其处理步骤如下：
1）通过调用SparkEnv的方法environmentDetails最终影响环境的JVM参数、Spark 属性、系统属性、classPath等，参见代码清单3-52。
2）生成事件SparkListenerEnvironmentUpdate，并post到listenerBus，此事件被Environ-mentListener监听，最终影响EnvironmentPage页面中的输出内容。
代码清单3-51　postEnvironmentUpdate的实现

private def postEnvironmentUpdate() {
    if (taskScheduler != null) {
        val schedulingMode = getSchedulingMode.toString
        val addedJarPaths = addedJars.keys.toSeq
        val addedFilePaths = addedFiles.keys.toSeq
        val environmentDetails =
            SparkEnv.environmentDetails(conf, schedulingMode, addedJarPaths, addedFilePaths)
        val environmentUpdate = SparkListenerEnvironmentUpdate(environmentDetails)
        listenerBus.post(environmentUpdate)
    }
}
代码清单3-52　environmentDetails的实现
val jvmInformation = Seq(
    ("Java Version", s"$javaVersion ($javaVendor)"),
    ("Java Home", javaHome),
    ("Scala Version", versionString)
).sorted

val schedulerMode =
    if (!conf.contains("spark.scheduler.mode")) {
        Seq(("spark.scheduler.mode", schedulingMode))
    } else {
        Seq[(String, String)]()
    }
val sparkProperties = (conf.getAll ++ schedulerMode).sorted

// System properties that are not java classpaths
val systemProperties = Utils.getSystemProperties.toSeq
val otherProperties = systemProperties.filter { case (k, _) =>
    k != "java.class.path" && !k.startsWith("spark.")
}.sorted

// Class paths including all added jars and files
val classPathEntries = javaClassPath
    .split(File.pathSeparator)
    .filterNot(_.isEmpty)
    .map((_, "System Classpath"))
val addedJarsAndFiles = (addedJars ++ addedFiles).map((_, "Added By User"))
val classPaths = (addedJarsAndFiles ++ classPathEntries).sorted

Map[String, Seq[(String, String)]](
    "JVM Information" -> jvmInformation,
    "Spark Properties" -> sparkProperties,
    "System Properties" -> otherProperties,
    "Classpath Entries" -> classPaths)
}
postApplicationStart方法很简单，只是向listenerBus发送了SparkListenerApplicationStart事件，代码如下。
listenerBus.post(SparkListenerApplicationStart(appName, Some(applicationId), startTime, sparkUser))

时间： 2024-12-26 07:33:07

《深入理解Spark:核心思想与源码分析》——3.12节Spark环境更新的相关文章

《深入理解Spark:核心思想与源码分析》——第1章环境准备

第1章环境准备凡事豫则立,不豫则废:言前定,则不跲:事前定,则不困. -<礼记·中庸> 本章导读在深入了解一个系统的原理.实现细节之前,应当先准备好它的源码编译环境.运行环境.如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员甚至能够猜出一些Spark采用的编程模型.部署模式等.当你通过一些途径知道了系统的原理之后,难道不会问问自己:"这是怎么做到的?"如果只是游走于系统使用.原理了解的层面,

深入理解Spark：核心思想与源码分析. 3.12　Spark环境更新

3.12 Spark环境更新在SparkContext的初始化过程中,可能对其环境造成影响,所以需要更新环境,代码如下. postEnvironmentUpdate() postApplicationStart() SparkContext初始化过程中,如果设置了spark.jars属性, spark.jars指定的jar包将由addJar方法加入httpFileServer的jarDir变量指定的路径下.spark.files指定的文件将由addFile方法加入httpFileServer的

深入理解Spark：核心思想与源码分析. 1.4　Spark源码编译与调试

1.4 Spark源码编译与调试 1.下载Spark源码首先,访问Spark官网http://spark.apache.org/,如图1-18所示. 图1-18 Spark官网单击Download Spark按钮,在下一个页面找到git地址,如图1-19所示. 图1-19 Spark官方git地址打开Git Bash工具,输入git clone git://github.com/apache/spark.git命令将源码下载到本地,如图1-20所示. 图1-20 下载Spark

《深入理解Spark:核心思想与源码分析》——2.3节Spark基本设计思想

2.3 Spark基本设计思想2.3.1 Spark模块设计整个Spark主要由以下模块组成: Spark Core:Spark的核心功能实现,包括:SparkContext的初始化(Driver Application通过SparkContext提交).部署模式.存储体系.任务提交与执行.计算引擎等. Spark SQL:提供SQL处理能力,便于熟悉关系型数据库操作的工程师进行交互查询.此外,还为熟悉Hadoop的用户提供Hive SQL处理能力. Spark Streaming:提供流式计

《深入理解Spark:核心思想与源码分析》——第3章SparkContext的初始化

第3章 SparkContext的初始化道生一, 一生二, 二生三, 三生万物. -<道德经> 本章导读 SparkContext的初始化是Driver应用程序提交执行的前提,本章内容以local模式为主,并按照代码执行顺序讲解,这将有助于首次接触Spark的读者理解源码.读者朋友如果能边跟踪代码,边学习本章内容,也许是快速理解SparkContext初始化过程的便捷途径.已经熟练使用Spark的开发人员可以选择跳过本章内容. 本章将在介绍SparkContext初始化过程的同时,向读者介绍

深入理解Spark：核心思想与源码分析. 1.3　阅读环境准备

1.3 阅读环境准备准备Spark阅读环境,同样需要一台好机器.笔者调试源码的机器的内存是8 GB.源码阅读的前提是在IDE环境中打包.编译通过.常用的IDE有IntelliJ IDEA.Eclipse.笔者选择用Eclipse编译Spark,原因有二:一是由于使用多年对它比较熟悉,二是社区中使用Eclipse编译Spark的资料太少,在这里可以做个补充.在Windows系统编译Spark源码,除了安装JDK外,还需要安装以下工具. (1)安装Scala 由于Spark 1.20版本的sbt里

《深入理解Spark:核心思想与源码分析》——1.4节Spark源码编译与调试

1.4 Spark源码编译与调试 1.下载Spark源码首先,访问Spark官网http://spark.apache.org/,如图1-18所示. 2.构建Scala应用使用cmd命令行进到Spark根目录,执行sbt命令.会下载和解析很多jar包,要等很长时间,笔者大概花了一个多小时才执行完. 3.使用sbt生成Eclipse工程文件等sbt提示符(>)出现后,输入Eclipse命令,开始生成Eclipse工程文件,也需要花费很长时间,笔者本地大致花了40分钟.完成时的状况如图1-21

《深入理解Spark:核心思想与源码分析》——3.1节SparkContext概述

3.1 SparkContext概述 Spark Driver用于提交用户应用程序,实际可以看作Spark的客户端.了解Spark Driver的初始化,有助于读者理解用户应用程序在客户端的处理过程. Spark Driver的初始化始终围绕着SparkContext的初始化.SparkContext可以算得上是所有Spark应用程序的发动机引擎,轿车要想跑起来,发动机首先要启动.SparkContext初始化完毕,才能向Spark集群提交任务.在平坦的公路上,发动机只需以较低的转速.较低的功率

《深入理解Spark:核心思想与源码分析》——1.5节小结

1.5 小结本章通过引导大家在Linux操作系统下搭建基本的执行环境,并且介绍spark-shell等脚本的执行,来帮助读者由浅入深地进行Spark源码的学习.由于目前多数开发工作都在Windows系统下进行,并且Eclipse有最广大的用户群,即便是一些开始使用IntelliJ的用户对Eclipse也不陌生,所以在Windows环境下搭建源码阅读环境时,选择这些最常用的工具,能降低读者的学习门槛,并且替大家节省时间.

《深入理解Spark:核心思想与源码分析》——2.2节Spark基础知识

2.2 Spark基础知识 1.版本变迁经过4年多的发展,Spark目前的版本是1.4.1.我们简单看看它的版本发展过程. 1)Spark诞生于UCBerkeley的AMP实验室(2009). 2)Spark正式对外开源(2010年). 3)Spark 0.6.0版本发布(2012-10-15),进行了大范围的性能改进,增加了一些新特性,并对Standalone部署模式进行了简化. 4)Spark 0.6.2版本发布(2013-02-07),解决了一些bug,并增强了系统的可用性. 5)Spa

猜你喜欢

用QQ医生查找Vista漏洞

我们都知道Vista是最新一代的操作系统,而QQ又是我们使用最普遍的聊天工具.你有没有想过将两者结合起来,即利用QQ中的QQ医生来检查Vista漏洞,是不是很实用呢. 运行QQ,在QQ登录框上点击右下 ...

Windows和Linux中如何删除N天之前文件脚本

1. windows删除删除N天之前的文件脚本:cleardbbak.bat forfiles /p E:\db_backup /m * /d -10 /c "cmd /c del @fi ...

Mahout系列：canopy 算法

Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3 ...

C++学习摘要之二：构造函数和析构函数

构造函数和析构函数是类的两个特殊的成员函数 1．构造函数构造函数(constructor)是类的一个特殊的成员函数,它与类名同名.当定义该类的对象时,构造函数将被系统自动调用用以实现对该对象的初始化 ...

css之float

float是什么? float即为浮动,在CSS中的作用是使元素脱离正常的文档流并使其移动到其父元素的"最左边"或"最右边".下面解释下这个定义中的几个名词 ...

如何在Word中为图片添加边框效果

如何在Word中为图片添加边框效果: (1)选中要添加边框的图片,单击"格式→边框和底纹"命令,打开"边框和底纹"对话框.在"边框"选项卡下 ...

pdf-如何把图表生成PDF并发送到用户邮箱？

问题描述如何把图表生成PDF并发送到用户邮箱? 如何把图表生成PDF并发送到用户邮箱?使用什么类库?插件?知识等,望网友给予提示.( html5 c# .net)阿门... 解决方案下载pdf转换 ...

goahead的默认页面default.asp如何修改

问题描述 goahead的默认页面default.asp如何修改在goahead servser里想把默认的default.asp页面改成自己定义的页面,求助解决方案 http://blog.cs ...

Linux系统与windows系统文件同步

上篇文章中,我们介绍了有关Linux系统之间的文件同步,这篇文章我们来介绍下,有关Linux系统与windows系统,以及windows系统与windows系统之间的文件同步. 这篇文章我们需要分三个 ...

Ireport 报表导出 Poi + ireport 导出pdf, word ,excel ,htm

Ireport 报表导出 Poi + ireport 导出pdf, doc ,excel ,html 格式下面是报表导出工具类reportExportUtils 需要导出以上格式的报表只需要调 ...

小米-android 悬浮窗显示问题

问题描述 android 悬浮窗显示问题小米最新的系统还有魅族系统在拨打电话的时候是不是不允许显示由手机app接听拨打电话后要显示的一个悬浮窗了解决方案 android 悬浮窗Android ...

解决Audacious音乐播放软件列表乱码的问题

我们在使用Audacious的过程中常常遇到http://www.aliyun.com/zixun/aggregation/17223.html">播放列表中无法正确显示文件信息的情况 ...

[华为机试练习题]22.N皇后

题目皇后是国际象棋中威力最大的棋子.在下面所示的棋盘上,皇后可以攻击位于箭头所覆盖位置的所有棋子.我们能不能把N个皇后放在棋盘(N×N)上,它们中的任何一个都无法攻击其余的皇后?请编写程序找出一共有 ...

搭建FTP服务器（一）：小进步

昨天晚上经过我8个小时的奋斗,终于把server-u FTP服务器弄的有点眉目了. 具体操作步骤如下: 1.安装server-u服务器,我安装的server-u 9.2版本的.具体的安装步骤我就不一 ...

Lucene5学习之FuzzyQuery使用

接着学习MultiTermQuery下的另一个Query子类FuzzyQuery,它用于模糊相似度查询,那这里说的相似度是如何判定的?用到的是Damerau-Levenshtein算法,具体 ...

网页-怎么解决网站被人用整站下载工具下载全静态代码的问题？

问题描述怎么解决网站被人用整站下载工具下载全静态代码的问题? 怎么解决网站被人用整站下载工具下载全静态代码的问题?怎么保护代码呢?或者说像百度一样混乱代码,但是不好维护呀解决方案判断ip地址请求 ...

54张手绘PPT看Google如何运作

<Google是如何运作的>一书于今年9月出版,作者是如雷贯耳的Google前CEO埃里克·施密特和Google高级副总裁乔纳森·罗森伯格.本文中的54张插图则是施密特不久前刚在网上公开的 ...

北京：充电桩已在本市若干商场建设

摘要: 昨天,全国人大代表.北京市科委主任闫傲霜表示,有关部门正在动员商场.大型停车场.P+R等停车.中转交换场所建设公共充电桩.目前,充电桩已在本市若干商场建设. 对于如何找昨天,全国人大代表.北 ...

SQL Server触发器

触发器可以做很多事情,但也会带来很多问题.使用它的技巧在于在适当的时候使用,而不要在不适当的时候使用它们. 触发器的一些常见用途如下: 弹性参照完整性:实现很多DRI不能实现的操作(例如,跨数据库或服 ...

eclipse源代码-eclipse安卓helloworld程序显示问题

问题描述 eclipse安卓helloworld程序显示问题初次用安卓AVD 但是结果什么都没有显示代码: package com.example.third; import android.ap ...

有谁碰到过注册dll无反应的情况

问题描述有谁碰到过注册dll无反应的情况有谁碰到过注册dll无反应的情况,不提示成功也不提示失败,也没注册成功,可能是什么原因啊? 解决方案是不是,该DD本身就不需要注册! 解决方案二: 是否d ...

新年伊始沐圣moolsun强势来袭

OFweek电子工程网讯众所周知,中国人都图个吉利,过新年的意义就是除旧布新,新的开始.过去,农历的春节才是一年到头最大的日子,家人团聚,在除夕夜看春晚吃大餐,庆祝新年的到来.现在,阳历的新年也变成 ...

Javascript 生成指定范围数值随机数_javascript技巧

不过经过俺的小小努力之后, 终于让俺摸着门道喽, 问题也就理所当然滴解决掉. 然后就写了个公式, 这样应该可以消失掉这个用法了, 公式: 1. 从1开始至任意值 linenum parseInt( ...

GOOGLE搜索再次“封杀”整个机房网站

近日,GOOGLE搜索引擎不收录不更新河北某联通机房(61.240.131.*段)的网站及网页了,经查原因,又是被GOOGLE封杀. 今年2月份,因为GOOGLE不收录也不更61.240.131.*段 ...

SQL Server 7六种数据移动方法

1. 通过工具DTS的设计器进行导入或导出 DTS的设计器功能强大,支持多任务,也是可视化界面,容易操作,但知道的人一般不多,如果只是进行SQL Server数据库中部分表的移动,用这种方法最好,当然 ...

TL-TR861系列无线路由器如何升级软件

一. 软件升级(举例为XP操作系统) 1.从官方网站下载对应型号设备的升级软件,升级软件必须与当前设备软硬件版本一致.解压文件,并确保文件夹内包含文件如下: 2.右击TPSWUpgradeClient ...

Excel数据生成Sql语句的方法

选中想要生成的列,套用表格格式,选中表包含标题的选项确定,然后在最右边的一列第二行处,点击函数功能,选择CONCATENATE,在文本里输入想要的结构即可代码如下复制代码 ,=CONCATENA ...

olap数据挖掘，数据库是Sql2008，通过mdx语句查询数据在前台WEB显示。

问题描述 olap数据挖掘,数据库是Sql2008,通过mdx语句查询数据在前台WEB显示. 现在通过MDX语句查询到的是 cellSet 数据集合因为刚接触,想请教一个思路, 项目功能大致是指定 ...

linux 管理小命令7—— 用户管理

1.基本文件介绍: 先介绍基本的名词概念吧,太基本了,我只列出来,你若不知道什么意思,就自己百度吧: UID和GID:每个登陆linux系统的使用者都会取得两个ID,分别是UID(user id)和G ...

中航信遇“霸王条款”争议：限7日打印电子客票

21世纪经济报道钟良深圳报道核心提示:目前开发电子客票行程单软件的是中国民航总局下属的中航信,全国的航空公司都用这个软件系统.7天这个时间也是中航信在中国民航总局的同意下统一设置的. 8月16日 ...

热搜