Spark学习之在集群上运行Spark（6）

1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行，来扩展程序的计算能力。

2. Spark既能适用于专用集群，也可以适用于共享的云计算环境。

3. Spark在分布式环境中的架构：

Created with Raphaël 2.1.0我的操作集群管理器Mesos、YARN、或独立集群管理器N个集群工作节点(执行器进程)

Spark集群采用的是主/从结构，驱动器（Driver）节点和所有执行器（executor）节点一起被称为一个Spark应用（application）。

Spark自带的集群管理器被称为独立集群管理器。

4. 驱动器节点

Spark的驱动器是执行程序main()方法的进程。它执行用户编写的用来创建SparkContext、创建RDD，以及进行RDD的转化操作和行动操作的代码。

5. 执行器节点

Spark的执行器节点是一种工作进程，负责在Spark作业中运行任务，任务间相互独立。
两大作用：第一，它们负责运行组成Spark应用的任务，并将结果返回给驱动器进程；第二，它们通过自身的块管理器（Block Manager）为用户程序中要求的缓存的RDD提供内存式存储。

6. 集群管理器

Spark依赖于集群管理器来启动执行器节点，在某特殊情况下，也依赖集群管理器来启动驱动器节点。

7. 提交Python应用（spark-submit）

bin/spark-submit my_script.py

8. 打包依赖

Maven或者sbt

时间： 2024-08-31 23:11:51

Spark学习之在集群上运行Spark（6）的相关文章

《Spark快速大数据分析》—— 第七章在集群上运行Spark

本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第七章在集群上运行Spark,如需转载请自行联系原博主.

《循序渐进学Spark》一1.2　在Linux集群上部署Spark

1.2 在Linux集群上部署Spark Spark安装部署比较简单,用户可以登录其官方网站(http://spark.apache.org/downloads.html)下载Spark最新版本或历史版本,也可以查阅Spark相关文档作为参考.本书开始写作时,Spark刚刚发布1.5.0版,因此本章所述的环境搭建均以Spark 1.5.0版为例. Spark使用了Hadoop的HDFS作为持久化存储层,因此安装Spark时,应先安装与Spark版本相兼容的Hadoop. 本节以阿里云Linux主

Scala-IDE Eclipse（Windows)中开发Spark应用程序，在Ubuntu Spark集群上运行

在进行实际的Spark应用程序开发时,常常会利用Window环境进行程序开发,开发测试好之后提交到Spark集群中利用bin/spark-submit脚本进行程序的发布运行,本教程教将一步一步地教大家如何进行该操作.本教程主要内容如下: Window开发环境说明 Spark集群运行环境说明 Scala IDE For Eclipse中Spark程序开发利用spark-submit脚本提交到Spark集群当中运行 Windows开发环境说明 (1)Scala-IDE eclipse ,版本号见下

hadoop-2.2.0集群上运行Hive 0.13 出错的解决方案

集群配置 IP地址主机名运行进程 192.168.1.104 cluster04 QuorumPeerMain(ZooKeeper进程) Master(Spark Master进程) DataNode JournalNode ResourceManager(Yanr资源管理器) NodeManager Worker 192.168.1.105 cluster05 NameNode QuorumPeerMain(ZooKeeper进程) Worker(Spark Worker进程) NodeM

在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架,如果你使用了阿里云的E-MapReduce服务,可以很方便的运行图计算的作业. 下面以PageRank为例,看看如何运行GraphX作业.这个例子来自Spark官方的example(examples/src/main/scala/org/apache/spark/examples/graphx/PageRankExample.scala),直接调用GraphOps的pageRank方法,计算出ranks: object PageRankExam

【Spark Summit EU 2016】规模不断扩展的服务器集群上Spark的性能表征

本讲义出自Ahsan Javed Awan在Spark Summit EU 2016上的演讲,主要介绍了在服务器集群的规模不断扩展的状态下,如何获取运行于服务器集群上的Spark的性能指标并对于性能进行优化,并分享了为了使得架构设计能够提升节点级别的性能表现,该如何确定衡量指标,以及如何设计可扩展的架构.

《Spark官方文档》在YARN上运行Spark

Spark在 0.6.0版本后支持在YARN(hadoop NextGen)上运行,并且在后续版本中不断改进. 在YARN上启动Spark 首先,确认 HADOOP_CONF_DIR或YARN_CONF_DIR指向的包含了Hadoop集群的配置文件.这些配置用于操作HDFS和连接YARN资源管理器.在这个目录下的这些配置文件将被分发到YARN集群中,因此应用所使用的容器能够使用相同的配置.如果配置中的java系统参数或环境变量没有被YARN所管理,就必须设置在Spark应用的配置中(驱动.执行器

《Spark 官方文档》在Mesos上运行Spark

在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行. 在Mesos集群中使用Spark的主要优势有: 可以在Spark以及其他框架(frameworks)之间动态划分资源. 可以同时部署多个Spark实例,且各个实例间的资源分配可以调整. 工作原理在独立部署的Spark集群中,下图里的Cluster Manager代表Spark master.然而,在Mesos集群中,Mesos master将取代Spark master在下图中的地位. 如果一个S

《Spark Cookbook 中文版》一1.5　在集群上以独立模式部署Spark

1.5 在集群上以独立模式部署Spark 在分布式环境中的计算资源需要管理,使得资源利用率高,每个作业都有公平运行的机会.Spark有一个便利的被称为独立模式的自带集群管理器.Spark也支持使用YARN或者Mesos做为集群管理器. 选择集群处理器时,主要需要考虑延迟以及其他架构,例如MapReduce,是否共享同样的计算资源池.如果你的集群运行着旧有的MapReduce作业,并且这些作业不能转变为Spark作业,那么使用YARN作为集群管理器是个好主意.Mesos是一种新兴的.方便跨平台管理