spark-java怎么在Spark集群中运行?

问题描述

java怎么在Spark集群中运行?

本人初学者,现在已经成功跑了本地的SparkPi程序。现有条件: windows8.1; eclipse; putty以及root和密码;Master主机IP;两台slave的IP。
不知道下一步该怎么做了,请问SparkPi怎么在Spark集群中运行呢?我查了一下,是不是要导出jar包,然后在putty中用spark-submit来运行?如果是的话,具体怎么操作呢? 多谢相助!

解决方案

对,搭建好集群后,通过spark submit来提交任务让他们处理

时间: 2025-01-20 19:31:43

spark-java怎么在Spark集群中运行?的相关文章

《Hadoop MapReduce实战手册》一第1章 搭建Hadoop并在集群中运行

第1章 搭建Hadoop并在集群中运行 Hadoop MapReduce实战手册本章将学习以下内容: 在你的机器上安装Hadoop 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它 给WordCountMapReduce程序增加combiner步骤 安装HDFS 使用HDFS监控UI HDFS的基本命令行文件操作 在分布式集群环境中设置Hadoop 在分布式集群环境中运行WordCount程序 使用MapReduce监控UI

自定义JAVA对象在WAS集群中如何共享?

问题描述 环境如下:有两台服务器linuxa.linuxb,在linuxa上部署了管理节点m,节点wasa,在linuxb上部署了几点wasb.都知道was集群中节点之间可以通过复制域来共享session.但是这个session是容器支持的session.那现在我自己定义了一个MAP对象来模拟session的功能,那该如何将这个MAP对象也能在was集群之间达到共享的目的呢?望各位大神有什么好的办法,在线等. 解决方案

Storm集群中运行的各种组件及其并行

一.Storm中运行的组件      我们知道,Storm的强大之处就是可以很容易地在集群中横向拓展它的计算能力,它会把整个运算过程分割成多个独立的tasks在集群中进行并行计算.在Storm中,一个task就是运行在集群中的一个Spout或Bolt实例.      为了方便理解Storm如何并行处理我们分给它的任务,这里我先介绍一下在集群中涉及到Topology的四种组件: Nodes(machines):集群中的节点,就是这些节点一起工作来执行Topology. Workers(JVMs):

Scala-IDE Eclipse(Windows)中开发Spark应用程序,在Ubuntu Spark集群上运行

在进行实际的Spark应用程序开发时,常常会利用Window环境进行程序开发,开发测试好之后提交到Spark集群中利用bin/spark-submit脚本进行程序的发布运行,本教程教将一步一步地教大家如何进行该操作.本教程主要内容如下: Window开发环境说明 Spark集群运行环境说明 Scala IDE For Eclipse中Spark程序开发 利用spark-submit脚本提交到Spark集群当中运行 Windows开发环境说明 (1)Scala-IDE eclipse ,版本号见下

spark小demo在集群中的流程

问题描述 一个spark的单词计数程序,如下main(){vala=.....valsparkConf=newSparkConf().....valssc=newStreamingContext...//业务代码.....ssc.start()ssc.awaitTermination()}它在集群中的流程是怎么样呢,我的理解是:a的赋值和ssc的初始化其实都只执行一次,而跟ssc有关的业务代码却是随ssc.awaitTermination()一次又一次执行的,是这样么

【Spark Summit EU 2016】在Spark集群中内置Elasticsearch

本讲义出自Oscar Castaneda在Spark Summit EU上的演讲,在使用ES-Hadoop进行开发的过程中,使Elasticsearch运行在Spark集群外部是一件非常繁琐的事情,为了在开发过程中更好地Elasticsearch实例,并且尽可能地降低开发团队之间的依赖关系,使用ES快照作为团队合作的接口,并且提高QA的效率,所以提出了在Spark集群中内置Elasticsearch的方式.

《Spark官方文档》集群模式概览

Spark 1.6.0  译者:dlbrant 集群模式概览 本文简要描述了Spark在集群中各个组件如何运行.想了解如何在集群中启动Spark应用,请参考application submission guide . 组件 Spark应用在集群上运行时,包括了多个独立的进程,这些进程之间通过你的主程序(也叫作驱动器,即:driver)中的SparkContext对象来进行协调. 特别要指出的是,SparkContext能与多种集群管理器通信(包括:Spark独立部署时自带的集群管理器,Mesos

大数据探索:在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来,在过去,我们要用 R 语言提取固定宽度的数据,然后通过数学建模来分析美国的最低收入补贴,当然也包括其他优秀的方法. 今天我将向你展示对大数据的一点探索,不过有点变化,使用的是全世界最流行的微型电脑----树莓派,如果手头没有,那就看下一篇吧(可能是已经处理好的数据),对于其他用户,请继续阅读吧,今天我们要建立一个树莓派 Hadoop集群! I. 为什么要建立一个树莓派的 Hadoop 集群? 由三个树莓派节点组成的 Hadoop 集

Spark学习之在集群上运行Spark(6)

Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算环境. 3. Spark在分布式环境中的架构: Created with Raphaël 2.1.0我的操作集群管理器Mesos.YARN.或独立集群管理器N个集群工作节点(执行器进程) Spark集群采用的是主/从结构,驱动器(Driver)节点和所有执行器(executor)节点一起被称为一个S