《Spark Cookbook 中文版》一1.2 使用二进制文件安装Spark

1.2 使用二进制文件安装Spark

Spark既可以通过源码安装也可以通过预编译二进制安装,下载地址为http://spark.apache.org。对于标准使用场景来说,二进制安装已经足够了,这里将主要介绍通过二进制文件安装Spark。

1.2.1 准备工作

本书的所有教程都是适用于Ubuntu Linux系统的,不过应该也适用于任何POSIX环境。在安装Spark之前,首先需要安装好Java,并且配置好JAVA_HOME环境变量。

在Linux/Unix系统中,文件和目录的位置是有特定标准的,本书中也同样遵从这些标准,表1-1是一张速查表。

1.2.2 具体步骤

在写作本书时,Spark的当前版本是1.4。请从Spark下载页面http://spark.apache.org/downloads.html查阅最新版本。二进制安装包是使用最新最稳定的Hadoop版本。如果想使用特定的Hadoop版本,推荐使用源码构建,具体请参考下一份教程。

安装步骤如下所示。

1.打开终端,使用如下命令下载二进制安装包。

$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0-bin-
   hadoop2.4.tgz

2.解压二进制安装包。

$ tar -zxf spark-1.4.0-bin-hadoop2.4.tgz

3.重命名包含二进制安装包的文件夹,去除版本信息。

$ sudo mv spark-1.4.0-bin-hadoop2.4 spark

4.把配置文件夹移动到/etc文件夹下,以便之后制作软链接。

$ sudo mv spark/conf/* /etc/spark

5.在/opt目录下新建一个公司名限定的安装目录。本书的本篇教程是使用infoobjects沙盒测试的,所以我们就用infoobjects做目录名。创建目录/opt/infoobjects。

$ sudo mkdir -p /opt/infoobjects

6.把spark目录移动到/opt/infoobjects,因为spark是一个附加软件包。

$ sudo mv spark /opt/infoobjects/

7.设置root为spark主目录的权限用户。

$ sudo chown -R root:root /opt/infoobjects/spark

8.修改spark主目录的权限,0755意味着主用户将拥有读写和执行权限,而群用户和其他用户拥有读和执行权限。

$ sudo chmod -R 755 /opt/infoobjects/spark

9.进入spark主目录。

$ cd /opt/infoobjects/spark

10.创建软链接。

$ sudo ln -s /etc/spark conf

11.在.bashrc文件中添加到PATH变量。

$ echo "export PATH=$PATH:/opt/infoobjects/spark/bin" >> /home/
hduser/.bashrc

12.打开一个新终端。

13.在/var目录下创建log目录。

$ sudo mkdir -p /var/log/spark

14.设置hduser为Spark log目录的权限用户

$ sudo chown -R hduser:hduser /var/log/spark

15.创建Spark tmp目录。

$ mkdir /tmp/spark

16.在以下命令的帮助下配置Spark。

$ cd /etc/spark
    $ echo "export HADOOP_CONF_DIR=/opt/infoobjects/hadoop/etc/hadoop"
>> spark-env.sh
$ echo "export YARN_CONF_DIR=/opt/infoobjects/hadoop/etc/Hadoop"
>> spark-env.sh
$ echo "export SPARK_LOG_DIR=/var/log/spark" >> spark-env.sh
$ echo "export SPARK_WORKER_DIR=/tmp/spark" >> spark-env.sh
时间: 2024-09-18 05:40:33

《Spark Cookbook 中文版》一1.2 使用二进制文件安装Spark的相关文章

《Spark Cookbook 中文版》一导读

前 言 Spark Cookbook 中文版 随着Hadoop这个大数据平台的成功,用户的期望也水涨船高,他们既希望解决不同分析问题的功能提高,又希望减少延迟.由此,各类工具应运而生.Apache Spark这个可以解决所有问题的单一平台也出现在了Hadoop的大舞台上."Spark一出,谁与争锋",它终结了需要使用多种工具来完成复杂挑战和学习曲线的局面.通过使用内存进行持久化存储和计算,Apache Spark避免了磁盘上的中间存储过程并将速度提高了100倍,并且提供了一个单一平台用

《Spark Cookbook 中文版》一第1章 开始使用Apache Spark

第1章 开始使用Apache Spark Spark Cookbook 中文版在本章中,我们将介绍安装和配置Spark,包括如下内容. 通过二进制可执行文件安装Spark. 通过Maven构建Spark源码. 在Amazon EC2上安装Spark. 在集群上以独立模式部署Spark. 在集群上使用Mesos部署Spark. 在集群上使用YARN部署Spark. 使用Tachyon作为堆外存储层.

《Spark Cookbook 中文版》一1.3 通过Maven构建Spark源码

1.3 通过Maven构建Spark源码 在大多数情况下使用二进制文件安装Spark已经足够了.对于一些高级的需求(并不局限于下列需求),通过源码编译是个更好的选择. 需要使用特定的Hadoop版本进行编译. 集成Hive. 集成YARN. 1.3.1 准备工作 开始本篇教程之前需要以下必备条件. Java 1.6或更新版本. Maven 3.x. 1.3.2 具体步骤 使用Maven构建Spark源码的步骤如下. 1.增大堆的MaxPermSize参数. $ echo "export _JAV

《Spark Cookbook 中文版》一1.5 在集群上以独立模式部署Spark

1.5 在集群上以独立模式部署Spark 在分布式环境中的计算资源需要管理,使得资源利用率高,每个作业都有公平运行的机会.Spark有一个便利的被称为独立模式的自带集群管理器.Spark也支持使用YARN或者Mesos做为集群管理器. 选择集群处理器时,主要需要考虑延迟以及其他架构,例如MapReduce,是否共享同样的计算资源池.如果你的集群运行着旧有的MapReduce作业,并且这些作业不能转变为Spark作业,那么使用YARN作为集群管理器是个好主意.Mesos是一种新兴的.方便跨平台管理

《Spark Cookbook 中文版》一1.7 在集群上使用YARN部署

1.7 在集群上使用YARN部署 另一种资源协调者(YARN)是基于HDFS这个Hadoop存储层的Hadoop计算框架. YARN遵循主从架构.主守护进程被称为资源管理器(ResourceManager),从守护进程被称为节点管理器(NodeManager).除此之外,生命周期管理由ApplicationMaster负责,它可以被派生到任何从节点上并可以生存一个应用的生命周期时长. 如果Spark运行在YARN上的话,资源管理器充当Spark master,节点管理器充当执行节点. 如果Spa

《Spark Cookbook 中文版》一1.1 简介

1.1 简介 Apache Spark是一个用于处理大数据工作流的多功能集群计算系统.Spark在速度.易用性以及分析能力上都强于它的前辈们(如MapReduce). Apache Spark最初在2009年,由加州大学伯克利分校的AMPLab实验室研发,在2010年按照BSD协议实现开源,并在2013年转为Apache 2.0协议.到2013年下半年,Spark的创始人建立了Databricks,专注于Spark的研发和未来的公开发行. 谈到速度,Spark大数据工作流的处理可以达到亚秒级别的

《Spark Cookbook 中文版》一1.4 在Amazon EC2上部署Spark

1.4 在Amazon EC2上部署Spark Amazon弹性计算云(Amazon EC2)是一个能够提供可变大小的云计算实例的网络服务,Amazon EC2提供以下特性. 通过互联网按需提供IT资源. 提供足够多的实例. 像支付水电费账单一样,按你使用实例的时间付费. 没有配置成本,无需安装,没有任何开销. 当你不需要实例时,只需关闭或者终止它们即可离开. 支持所有常用操作系统. EC2提供不同类型的实例,以满足所有计算需求,例如通用实例.微实例.内存优化实例.存储优化实例等,并提供微实例的

《Spark Cookbook 中文版》一1.6 在集群上使用Mesos部署Spark

1.6 在集群上使用Mesos部署Spark Mesos正慢慢崛起为跨数据中心管理所有计算资源的数据中心管理系统.Mesos可以运行在任意一台Linux操作系统的机器上.Mesos与Linux内核有着相同的配置原则.让我们看看如何安装Mesos. 具体步骤 Mesosphere提供Mesos的二进制安装包.最新的Mesos分布式安装包可以通过Mesosphere库按照如下步骤安装. 1.在Ubuntu操作系统的可靠版本上执行Mesos. $ sudo apt-key adv --keyserve

《Spark Cookbook 中文版》一1.8 使用Tachyon作为堆外存储层

1.8 使用Tachyon作为堆外存储层 Spark弹性分布式数据集(RDD)很适合在内存上存储数据集,可以在不同应用上存储大量备份.Tachyon可以解决Spark RDD管理的一些挑战性问题,如下所示. RDD仅存在于Spark应用期间.计算程序和RDD内存存储共享同样的执行过程:所以,如果一个进程崩溃了,那么内存存储也会消失.即使处理同样的底层数据,不同作业的RDD是不能共享的,例如使用HDFS数据块.慢速写入磁盘.在内存中备份数据,更高的内存占用.如果需要与其他应用程序共享输出,由于需要