在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架,如果你使用了阿里云的E-MapReduce服务,可以很方便的运行图计算的作业。

下面以PageRank为例,看看如何运行GraphX作业。这个例子来自Spark官方的example(examples/src/main/scala/org/apache/spark/examples/graphx/PageRankExample.scala),直接调用GraphOps的pageRank方法,计算出ranks:

object PageRankExample {
  def main(args: Array[String]): Unit = {
    // Creates a SparkSession.
    val spark = SparkSession
      .builder
      .appName(s"${this.getClass.getSimpleName}")
      .getOrCreate()
    val sc = spark.sparkContext

    // $example on$
    // Load the edges as a graph
    val graph = GraphLoader.edgeListFile(sc, "data/graphx/followers.txt")
    // Run PageRank
    val ranks = graph.pageRank(0.0001).vertices
    // Join the ranks with the usernames
    val users = sc.textFile("data/graphx/users.txt").map { line =>
      val fields = line.split(",")
      (fields(0).toLong, fields(1))
    }
    val ranksByUsername = users.join(ranks).map {
      case (id, (username, rank)) => (username, rank)
    }
    // Print the result
    println(ranksByUsername.collect().mkString("\n"))
    // $example off$
    spark.stop()
  }
}

下面来看如何运行这个example,首先要登录E-MapReduce程序的Master节点,依次运行如下命令:

  • cd /usr/lib/spark-current
  • hadoop fs -mkdir -p data
  • hadoop fs -put data/graphx data/​
  • ​​run-example graphx.PageRankExample

等待作业 提交之后,最后运行结果打印:

(justinbieber,0.15)
(matei_zaharia,0.7013599933629602)
(ladygaga,1.390049198216498)
(BarackObama,1.4588814096664682)
(jeresig,0.9993442038507723)
(odersky,1.2973176314422592)
时间: 2024-11-02 09:35:05

在E-MapReduce集群内运行Spark GraphX作业的相关文章

Spark学习之在集群上运行Spark(6)

Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算环境. 3. Spark在分布式环境中的架构: Created with Raphaël 2.1.0我的操作集群管理器Mesos.YARN.或独立集群管理器N个集群工作节点(执行器进程) Spark集群采用的是主/从结构,驱动器(Driver)节点和所有执行器(executor)节点一起被称为一个S

《Spark快速大数据分析》—— 第七章 在集群上运行Spark

本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第七章 在集群上运行Spark,如需转载请自行联系原博主.

Scala-IDE Eclipse(Windows)中开发Spark应用程序,在Ubuntu Spark集群上运行

在进行实际的Spark应用程序开发时,常常会利用Window环境进行程序开发,开发测试好之后提交到Spark集群中利用bin/spark-submit脚本进行程序的发布运行,本教程教将一步一步地教大家如何进行该操作.本教程主要内容如下: Window开发环境说明 Spark集群运行环境说明 Scala IDE For Eclipse中Spark程序开发 利用spark-submit脚本提交到Spark集群当中运行 Windows开发环境说明 (1)Scala-IDE eclipse ,版本号见下

spark-java怎么在Spark集群中运行?

问题描述 java怎么在Spark集群中运行? 本人初学者,现在已经成功跑了本地的SparkPi程序.现有条件: windows8.1: eclipse: putty以及root和密码:Master主机IP:两台slave的IP. 不知道下一步该怎么做了,请问SparkPi怎么在Spark集群中运行呢?我查了一下,是不是要导出jar包,然后在putty中用spark-submit来运行?如果是的话,具体怎么操作呢? 多谢相助! 解决方案 对,搭建好集群后,通过spark submit来提交任务让

关于eclipse中运行mapreduce不是在hadoop集群环境运行而是在本地运行的问题

问题描述 关于eclipse中运行mapreduce不是在hadoop集群环境运行而是在本地运行的问题 1.我用eclipse远程连接linux上的hadoop集群,跑Mapreduce程序都可以顺利完成,结果在集群里也可以看得到. 但是,跑程序的时候,我去集群上Jps没有我正在跑的程序 而且,我到job的web界面下,也没有我的MapReduce任务记录... 是不是eclipse其实在本地跑的,没有在集群中跑,我无法想明白,还请指教 解决方案 你远程的意思指的什么,是从windows下远程连

《Hadoop MapReduce实战手册》一第1章 搭建Hadoop并在集群中运行

第1章 搭建Hadoop并在集群中运行 Hadoop MapReduce实战手册本章将学习以下内容: 在你的机器上安装Hadoop 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它 给WordCountMapReduce程序增加combiner步骤 安装HDFS 使用HDFS监控UI HDFS的基本命令行文件操作 在分布式集群环境中设置Hadoop 在分布式集群环境中运行WordCount程序 使用MapReduce监控UI

《循序渐进学Spark》一1.2 在Linux集群上部署Spark

1.2 在Linux集群上部署Spark Spark安装部署比较简单,用户可以登录其官方网站(http://spark.apache.org/downloads.html)下载Spark最新版本或历史版本,也可以查阅Spark相关文档作为参考.本书开始写作时,Spark刚刚发布1.5.0版,因此本章所述的环境搭建均以Spark 1.5.0版为例. Spark使用了Hadoop的HDFS作为持久化存储层,因此安装Spark时,应先安装与Spark版本相兼容的Hadoop. 本节以阿里云Linux主

hadoop 2.x 集群外机器通过webhdfs访问集群内文件,怎么实现?需要DNS吗?

问题描述 hadoop2.x集群外机器通过webhdfs访问集群内文件,用IP地址直接访问http://namenode(IP):50070/webhdfs/v1/test/xxx.txt?op=open,访问这个会重定向到某一个节点上例如:datanode1上.请问集群外的机器通过IP地址是否可以通过webhdfs访问hadoop集群内文件?这是不是本来就不可行的?因为有安全问题.如果要在集群外客户端通过web访问的话,有什么解决方案?目前有一种比较笨的办法,在客户端hosts文件中添加集群内

hadoop-2.2.0集群上运行Hive 0.13 出错的解决方案

集群配置 IP地址 主机名 运行进程 192.168.1.104 cluster04 QuorumPeerMain(ZooKeeper进程) Master(Spark Master进程) DataNode JournalNode ResourceManager(Yanr资源管理器) NodeManager Worker 192.168.1.105 cluster05 NameNode QuorumPeerMain(ZooKeeper进程) Worker(Spark Worker进程) NodeM