开源集群计算环境Apache Spark

  Apache Spark简称Spark,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

  Apache Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

  尽管创建 Apache Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

时间: 2024-12-29 08:20:33

开源集群计算环境Apache Spark的相关文章

Spark :工作组上的集群计算的框架

翻译:Esri 卢萌 本文翻译自加州伯克利大学AMP lab的Matei大神发表的关于Spark框架的第一篇论文,限于本人英文水平很烂,所以翻译中肯定有很多错误,请发现了错误的直接与我联系,感谢. (括号中,斜体字部分是我自己做的解释) 摘要: MapReduce以及其的各种变种,在商业集群上进行的对大规模密集型数据集的应用上已经取得了很大的成功.然而大多数这类系统都是围绕着一个非迭代型 的数据流模型,这种模型不适用于目前很多主流的应用程序.本文的研究侧重于介绍其中这样一类应用:重复使用跨多个并

Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象

本文是阅读<Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing>过程中,抽了局部一些关注点翻译出来的文章,没有将全文都翻译.希望这些碎片化甚至不通顺的记录,可以帮助读者取代阅读原论文. 论文地址http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 第一节 主要介绍了现有的集群计算框架存在的问题,

spark集群计算速度是否正常?

问题描述 spark集群计算速度是否正常? 集群情况: 23台8核 32G内存服务器(主节点1台) 数据量:从spark中700W行数据中检索100W行数据 就是简单的SUM计算 ,计算时间约为3秒 请问这个速度是否正常,多谢! 解决方案 不正常,计算时间可以降低到1秒内

RDD:基于内存的集群计算容错抽象

摘要 本文提出了分布式内存抽象的概念--弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算.现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见:二是交互式数据挖掘工具.这两种情况下,将数据保存在内存中能够极大地提高性能.为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操

平台-关于hadoop的集群开发环境配置

问题描述 关于hadoop的集群开发环境配置 各位前辈好!最近遇到了点疑问,hadoop的集群配置的主节点是要搭在服务器上吗?我们老师要我们做一个项目,需要配置hadoop平台,什么也不懂,所以来这里请教大家== 解决方案 http://blog.csdn.net/flyqwang/article/details/7244552/http://www.51document.com/1365084386796.htmlhttp://www.open-open.com/lib/view/132853

集群下并行难题-系统集群的环境下出现的问题

问题描述 系统集群的环境下出现的问题 现在有这么一个情况:一个终端每10秒发出一笔数据,这样的终端有几千个,终端的数据假设有个A类来保存,在我的cache中有一个List来保存数据列表,数据的格式是,如果终端发送数据的时间距离上次发来的时间超过三分钟,那么我记录新记录,否则只更新时间,这种情况在单机环境下没有问题,因为在一台服务器的队列中是有先后顺序,但是如果到了集群环境,上一笔数据访问到第一台服务器,本次数据访问到第二台服务器,这个时候会出现并行计算情况,导致时间段获取不正确,如何解决

Docker集群轻松部署Apache Storm

Apache Storm是一个非常常用的实时流计算框架.最近有客户来咨询如何在Docker中运行Apache Storm的问题.我之前读过一篇文章介绍Apache Storm在Docker环境的部署,The Joy Of Deploying Apache Storm On Docker Swarm.文章写的很好,但是整个过程需要从手工构建Docker集群环境开始,再一步步把Storm配置起来,虽然作者提到整个过程是"a real joy",估计绝大多数用户依然会望而生畏. 利用Dock

利用Pacemaker集群管理让Apache最大可用性

实验环境: 系统版本:CentOS release 6.5 (Final)_x64 node1: ip :192.168.0.233 #写进/etc/hosts文件中 node2: ip :192.168.0.234 vip: 192.168.0.183 注意:1.两台机器务必写静态ip,切记莫用dhcp获取ip,确保两个机器互相能ping通 2. 先禁用防火墙和SELinux 一.配置SSH SSH 是一个方便又安全的用来远程传输文件或运行命令的工具. 在这个文档中, 我们创建ssh key(

IBM WebSphere MQ对集群化环境和负载平衡的重要性

假设客户有一个重要应用程序使用 IBM® http://www.aliyun.com/zixun/aggregation/13387.html">WebSphere® MQ 作为消息传递系统,需要升级现有的分布式排队环境以处理新业务和确保高可用性.作为升级的一部分,现有环境中的一些队列管理器将作为一个集群的一部分,另一些队列管理器将单独提供.本文将介绍 IBM 提出的一种概念证明设计. 队列管理器别名定义 队列管理器别名定义有 3 个用途: 在发送消息时,重新映射队列管理器名称 在发送消息