spark集群计算速度是否正常?

问题描述

spark集群计算速度是否正常?

集群情况:
23台8核 32G内存服务器(主节点1台)
数据量:从spark中700W行数据中检索100W行数据
就是简单的SUM计算 ,计算时间约为3秒

请问这个速度是否正常,多谢!

解决方案

不正常,计算时间可以降低到1秒内

时间: 2024-09-20 00:16:48

spark集群计算速度是否正常?的相关文章

Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象

本文是阅读<Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing>过程中,抽了局部一些关注点翻译出来的文章,没有将全文都翻译.希望这些碎片化甚至不通顺的记录,可以帮助读者取代阅读原论文. 论文地址http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 第一节 主要介绍了现有的集群计算框架存在的问题,

Spark :工作组上的集群计算的框架

翻译:Esri 卢萌 本文翻译自加州伯克利大学AMP lab的Matei大神发表的关于Spark框架的第一篇论文,限于本人英文水平很烂,所以翻译中肯定有很多错误,请发现了错误的直接与我联系,感谢. (括号中,斜体字部分是我自己做的解释) 摘要: MapReduce以及其的各种变种,在商业集群上进行的对大规模密集型数据集的应用上已经取得了很大的成功.然而大多数这类系统都是围绕着一个非迭代型 的数据流模型,这种模型不适用于目前很多主流的应用程序.本文的研究侧重于介绍其中这样一类应用:重复使用跨多个并

开源集群计算环境Apache Spark

Apache Spark简称Spark,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载. Apache Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架.与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对

RDD:基于内存的集群计算容错抽象

摘要 本文提出了分布式内存抽象的概念--弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算.现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见:二是交互式数据挖掘工具.这两种情况下,将数据保存在内存中能够极大地提高性能.为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操

《Spark大数据处理:技术、应用与性能优化》——第2章 Spark集群的安装与部署2.1 Spark的安装与部署

第2章 Spark集群的安装与部署 Spark的安装简便,用户可以在官网上下载到最新的软件包. Spark最早是为了在Linux平台上使用而开发的,在生产环境中也是部署在Linux平台上,但是Spark在UNIX.Windwos和Mac OS X系统上也运行良好.不过,在Windows上运行Spark稍显复杂,必须先安装Cygwin以模拟Linux环境,才能安装Spark. 由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop.下面介绍Spark集群的安装

Spark集群安装和使用

本文主要记录 CDH5 集群中 Spark 集群模式的安装过程配置过程并测试 Spark 的一些基本使用方法. 安装环境如下: 操作系统:CentOs 6.5 Hadoop 版本:cdh-5.4.0 Spark 版本:cdh5-1.3.0_5.4.0 关于 yum 源的配置以及 Hadoop 集群的安装,请参考 使用yum安装CDH Hadoop集群. 1. 安装 首先查看 Spark 相关的包有哪些: $ yum list |grep spark spark-core.noarch 1.3.0

Scala-IDE Eclipse(Windows)中开发Spark应用程序,在Ubuntu Spark集群上运行

在进行实际的Spark应用程序开发时,常常会利用Window环境进行程序开发,开发测试好之后提交到Spark集群中利用bin/spark-submit脚本进行程序的发布运行,本教程教将一步一步地教大家如何进行该操作.本教程主要内容如下: Window开发环境说明 Spark集群运行环境说明 Scala IDE For Eclipse中Spark程序开发 利用spark-submit脚本提交到Spark集群当中运行 Windows开发环境说明 (1)Scala-IDE eclipse ,版本号见下

测试spark集群入门级wordcount出错,求大神们帮忙解决啊

问题描述 测试spark集群入门级wordcount出错,求大神们帮忙解决啊 Created by jyq on 10/14/15.*/就这么点源代码 import org.apache.spark.{SparkConfSparkContextSparkFiles} object WordCount { def main(args: Array[String]):Unit= { val conf =new SparkConf().setAppName(""WordCount"

spark-java怎么在Spark集群中运行?

问题描述 java怎么在Spark集群中运行? 本人初学者,现在已经成功跑了本地的SparkPi程序.现有条件: windows8.1: eclipse: putty以及root和密码:Master主机IP:两台slave的IP. 不知道下一步该怎么做了,请问SparkPi怎么在Spark集群中运行呢?我查了一下,是不是要导出jar包,然后在putty中用spark-submit来运行?如果是的话,具体怎么操作呢? 多谢相助! 解决方案 对,搭建好集群后,通过spark submit来提交任务让