《Spark Cookbook 中文版》一第1章 开始使用Apache Spark

第1章 开始使用Apache Spark

Spark Cookbook 中文版
在本章中,我们将介绍安装和配置Spark,包括如下内容。

  • 通过二进制可执行文件安装Spark。
  • 通过Maven构建Spark源码。
  • 在Amazon EC2上安装Spark。
  • 在集群上以独立模式部署Spark。
  • 在集群上使用Mesos部署Spark。
  • 在集群上使用YARN部署Spark。
  • 使用Tachyon作为堆外存储层。
时间: 2024-10-04 01:04:20

《Spark Cookbook 中文版》一第1章 开始使用Apache Spark的相关文章

《Spark Cookbook 中文版》一导读

前 言 Spark Cookbook 中文版 随着Hadoop这个大数据平台的成功,用户的期望也水涨船高,他们既希望解决不同分析问题的功能提高,又希望减少延迟.由此,各类工具应运而生.Apache Spark这个可以解决所有问题的单一平台也出现在了Hadoop的大舞台上."Spark一出,谁与争锋",它终结了需要使用多种工具来完成复杂挑战和学习曲线的局面.通过使用内存进行持久化存储和计算,Apache Spark避免了磁盘上的中间存储过程并将速度提高了100倍,并且提供了一个单一平台用

《Spark与Hadoop大数据分析》一一第3章 深入剖析Apache Spark

第3章 深入剖析Apache Spark Apache Spark 的技术.社区和用户群都在快速增长.2015 年推出了两个新的API:DataFrame API 和 DataSet API.这两个 API 构建在基于 RDD 的核心 API 之上.我们有必要了解 RDD 的更深层概念,包括运行时的架构和它在 Spark 各种资源管理器上的表现.本章分为以下子主题:启动 Spark 守护进程Spark 的核心概念键值对 RDDSpark 程序的生命周期Spark 应用程序持久化和缓存Spark

《Spark与Hadoop大数据分析》——第3章 深入剖析Apache Spark

第3章 深入剖析Apache Spark Apache Spark 的技术.社区和用户群都在快速增长.2015 年推出了两个新的API:DataFrame API 和 DataSet API.这两个 API 构建在基于 RDD 的核心 API 之上.我们有必要了解 RDD 的更深层概念,包括运行时的架构和它在 Spark 各种资源管理器上的表现. 本章分为以下子主题:

《Spark与Hadoop大数据分析》——2.2 Apache Spark概述

2.2 Apache Spark概述 Hadoop和MR已有10年历史,已经被证明是高性能处理海量数据的最佳解决方案.然而,MR在迭代计算中性能不足,在这种情况下,多个MR作业之间的输出必须被写入 HDFS.在单个MR作业中,它的性能不足则是因为MR框架存在的一些缺点所致. 让我们来看看计算趋势的发展历史,以便了解计算的格局在过去20年中的变化. 这个趋势是当网络成本更低时(1990年代)对URI索引(Reference),当存储成本更低时(2000 年代)进行复制(Replicate),以及当

《Spark Cookbook 中文版》一1.5 在集群上以独立模式部署Spark

1.5 在集群上以独立模式部署Spark 在分布式环境中的计算资源需要管理,使得资源利用率高,每个作业都有公平运行的机会.Spark有一个便利的被称为独立模式的自带集群管理器.Spark也支持使用YARN或者Mesos做为集群管理器. 选择集群处理器时,主要需要考虑延迟以及其他架构,例如MapReduce,是否共享同样的计算资源池.如果你的集群运行着旧有的MapReduce作业,并且这些作业不能转变为Spark作业,那么使用YARN作为集群管理器是个好主意.Mesos是一种新兴的.方便跨平台管理

《Spark Cookbook 中文版》一1.6 在集群上使用Mesos部署Spark

1.6 在集群上使用Mesos部署Spark Mesos正慢慢崛起为跨数据中心管理所有计算资源的数据中心管理系统.Mesos可以运行在任意一台Linux操作系统的机器上.Mesos与Linux内核有着相同的配置原则.让我们看看如何安装Mesos. 具体步骤 Mesosphere提供Mesos的二进制安装包.最新的Mesos分布式安装包可以通过Mesosphere库按照如下步骤安装. 1.在Ubuntu操作系统的可靠版本上执行Mesos. $ sudo apt-key adv --keyserve

《Spark Cookbook 中文版》一1.8 使用Tachyon作为堆外存储层

1.8 使用Tachyon作为堆外存储层 Spark弹性分布式数据集(RDD)很适合在内存上存储数据集,可以在不同应用上存储大量备份.Tachyon可以解决Spark RDD管理的一些挑战性问题,如下所示. RDD仅存在于Spark应用期间.计算程序和RDD内存存储共享同样的执行过程:所以,如果一个进程崩溃了,那么内存存储也会消失.即使处理同样的底层数据,不同作业的RDD是不能共享的,例如使用HDFS数据块.慢速写入磁盘.在内存中备份数据,更高的内存占用.如果需要与其他应用程序共享输出,由于需要

《Spark Cookbook 中文版》一1.7 在集群上使用YARN部署

1.7 在集群上使用YARN部署 另一种资源协调者(YARN)是基于HDFS这个Hadoop存储层的Hadoop计算框架. YARN遵循主从架构.主守护进程被称为资源管理器(ResourceManager),从守护进程被称为节点管理器(NodeManager).除此之外,生命周期管理由ApplicationMaster负责,它可以被派生到任何从节点上并可以生存一个应用的生命周期时长. 如果Spark运行在YARN上的话,资源管理器充当Spark master,节点管理器充当执行节点. 如果Spa

《Spark Cookbook 中文版》一1.3 通过Maven构建Spark源码

1.3 通过Maven构建Spark源码 在大多数情况下使用二进制文件安装Spark已经足够了.对于一些高级的需求(并不局限于下列需求),通过源码编译是个更好的选择. 需要使用特定的Hadoop版本进行编译. 集成Hive. 集成YARN. 1.3.1 准备工作 开始本篇教程之前需要以下必备条件. Java 1.6或更新版本. Maven 3.x. 1.3.2 具体步骤 使用Maven构建Spark源码的步骤如下. 1.增大堆的MaxPermSize参数. $ echo "export _JAV