Spark graphx 可扩展性(scalability)如何复现?

问题描述

在ec2上测试spark的graphx图处理的可扩展性(scalability),用1,2,4,8和16个结点(workers)测试。发现完全没有体现加速(speedup)。请问是否有人有这方面的经验?算法使用graphx的pagerank。http://ask.csdn.net/questions/233980

解决方案

解决方案二:
节点多了,partition个数也设大了没?
解决方案三:
引用1楼coding_hello的回复:

节点多了,partition个数也设大了没?

graphx没有接口负责partition!!???
解决方案四:
en,是没repartition,忘了。。。//Changethepartitioningheuristic============================================================defpartitionBy(partitionStrategy:PartitionStrategy):Graph[VD,ED]也可以改个策略让它调整一把试试

时间: 2025-01-02 02:22:12

Spark graphx 可扩展性(scalability)如何复现?的相关文章

spark-Spark graphx 可扩展性(scalability)如何复现?

问题描述 Spark graphx 可扩展性(scalability)如何复现? 在ec2上测试spark的graphx图处理的可扩展性(scalability),用1,2,4,8和16个结点(workers)测试.发现完全没有体现加速(speed up).请问是否有人有这方面的经验?算法使用graphx的pagerank.

最短路径条数-spark graphx框架下怎样求两点间最短路径的条数

问题描述 spark graphx框架下怎样求两点间最短路径的条数 我使用spark的graphx图计算框架,现在要求一个图中所有节点对的最短路径条数, graphx下的pregel迭代貌似使用的是类迪杰斯特拉算法,要求最短路径长度很容易, 但是要求条数,我实在是想不出来怎么求,希望各位大神解答,最好能有源码,实在 没有,有思路也可以,万分感谢!!!

求教spark graphx最短路径的问题

问题描述 本人最近研究关于spark的图模型,spark最近才接触,scala语言也不是很熟,论坛里有没有高手帮忙解答一下关于最短路径的,官方文档我也看了,但貌似没有关于最短路径的,那个shortestpaths源码,也没怎么看明白,而且一下实现办法也只是展示了源点到目标顶点的距离,我想用spark做出最短路径的,最好是有代码案例的,结果带中间节点的,不知哪位大神做过这方面的研究,帮帮忙 解决方案 解决方案二:不知道楼主解决了么,我这给你个例子:importorg.apache.spark.{S

spark graphx 在 计算最短路径 读入数据文件 如何将边的属性读入?

问题描述 spark graphx 在 计算最短路径 读入数据文件 如何将边的属性读入? object shortestPathFinal { def main(args: Array[String]) { val conf = new SparkConf().setAppName("shortestpath").setMaster("local") val sc = new SparkContext(conf) val edgeFile:RDD[String] =

在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架,如果你使用了阿里云的E-MapReduce服务,可以很方便的运行图计算的作业. 下面以PageRank为例,看看如何运行GraphX作业.这个例子来自Spark官方的example(examples/src/main/scala/org/apache/spark/examples/graphx/PageRankExample.scala),直接调用GraphOps的pageRank方法,计算出ranks: object PageRankExam

大数据分析平台解析:什么是Apache Spark?

Apache Spark是一款快速.灵活且对开发者友好的工具,也是大型SQL.批处理.流处理和机器学习的领先平台. 2009年,Apache Spark从美国U.C. Berkeley的 AMPLab为起步,现在已经成为世界上主要的大数据分布式处理框架之一.Spark可以以各种方式进行部署,为Java.Scala.Python和R编程语言提供本地绑定,并支持SQL.流数据.机器学习和图形处理.已经被银行.电信公司.游戏公司.政府以及苹果.Facebook.IBM和微软等领域的企业和科技巨头所使用

Spark修炼之道(进阶篇)——Spark入门到精通:第二节 Hadoop、Spark生成圈简介

作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond 本节主要内容 Hadoop生态圈 Spark生态圈 1. Hadoop生态圈 原文地址:http://os.51cto.com/art/201508/487936_all.htm#rd?sukey=a805c0b270074a064cd1c1c9a73c1dcc953928bfe4a56cc94d6f67793fa02b3b983df6df92dc418df5a1083411b53325 下图给出了Hadoop生态圈中的重要

深入理解Spark:核心思想与源码分析

大数据技术丛书 深入理解Spark:核心思想与源码分析 耿嘉安 著 图书在版编目(CIP)数据 深入理解Spark:核心思想与源码分析/耿嘉安著. -北京:机械工业出版社,2015.12 (大数据技术丛书) ISBN 978-7-111-52234-8 I. 深- II.耿- III.数据处理软件 IV. TP274 中国版本图书馆CIP数据核字(2015)第280808号 深入理解Spark:核心思想与源码分析 出版发行:机械工业出版社(北京市西城区百万庄大街22号 邮政编码:100037)

用Spark机器学习数据流水线进行广告检测

在这篇文章中,我们Spark的其它机器学习API,名为Spark ML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案.关键点: 了解机器学习数据流水线有关内容. 怎么用Apache Spark机器学习包来实现机器学习数据流水线. 数据价值链处理的步骤. Spark机器学习流水线模块和API. 文字分类和广告检测用例. Spark ML(spark.ml)包提供了构建在DataFrame之上的机器学习API,它已经成了Spark SQL库的核心部分.这个包可以用于开发和管理机器