《Spark与Hadoop大数据分析》——2.4 安装 Hadoop 和 Spark 集群

2.4 安装 Hadoop 和 Spark 集群

在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本。在 Cloudera、Hortonworks和MapR这所有三种流行的Hadoop发行版中,Spark都是作为服务提供的。在本书编写的时候,最新的Hadoop和Spark版本分别是2.7.2和2.0。但是,Hadoop发行版里可能是一个较低版本的Spark,这是因为Hadoop和 Spark 的发行周期并不同步。

对于后续章节的实践练习,我们会使用来自 Cloudera、Hortonworks 和 MapR 的免费虚拟机(virtual machine,VM),或使用开源版本的 Apache Spark。这些 VM 让我们很容易开始使用 Spark 和 Hadoop。同样的练习也可以在较大的集群上运行。

在笔记本电脑上使用虚拟机的先决条件如下:

下载并运行 Cloudera Hadoop 发行版(Cloudera Distribution for Hadoop,CDH)的说明如下:

(1)从http://www.cloudera.com/content/www/en-us/downloads.html 下载最新的 quickstart CDH VM。请根据笔记本电脑上安装的虚拟化软件(VirtualBox 或 VMWare)来下载相应的版本。

(2)将其解压缩到一个目录下(使用 7-Zip 或 WinZip)。

(3)在使用 VMWare Player 的情况下,单击Open a Virtual Machine,并指向你已经解压缩了虚拟机的目录。选择 cloudera-quickstart-vm-5.x.x-x-vmware.vmx 文件,然后单击 Open。

(4)单击Edit virtual machine settings,然后把内存增加到 7 GB(如果你的笔记本电脑有 8 GB 内存)或 8 GB(如果您的笔记本电脑有超过 8 GB 内存)。将处理器数量增加到 4 个。单击 OK。

(5)单击Play virtual machine。

(6)选择I copied it,然后单击 OK。

(7)这样,你的虚拟机就会启动并运行了。

(8)Cloudera Manager 安装在虚拟机上,但默认情况下处于关闭状态。如果要使用 Cloudera Manager,请双击并运行 Launch Cloudera Manager Express以设置 Cloudera Manager。它在启动/停止/重新启动集群上服务的过程中是有帮助的。

(9)虚拟机的登录凭据是用户名(cloudera)和密码(cloudera)。

如果你要使用 Cloudera Quickstart 的 Docker 镜像,可以参照 http://blog.cloudera.com/blog/2015/12/docker-is-the-new-quickstart-option-for-apache-hadoop-and-cloudera 上的说明。

下载和运行 Hortonworks 数据平台(Hortonworks Data Platform,HDP)Sandbox 的说明如下:

(1)从http://hortonworks.com/products/hortonworks-sandbox/#install下载最新版本的 HDP Sandbox。请根据笔记本电脑上安装的虚拟化软件(VirtualBox 或 VMWare)下载相应的版本。

(2)按照同一个下载页面上的安装指南中的说明进行操作。

(3)打开浏览器并输入 sandbox 中显示的地址,如 http://192.168.139.158/ 。单击View Advanced Options以查看所有链接。

(4)使用 putty 作为root用户,hadoop作为初始密码来访问 sandbox。你需要在首次登录时更改密码。此外,可以运行ambari-admin-password-reset命令重置Ambari的管理员密码。

(5)要开始使用 Ambari,请打开浏览器并输入 ipaddressofsandbox:8080,并使用上一步创建的管理凭据。启动 Ambari 所需的服务。

(6)要将主机名映射到 Windows 中的 IP 地址,请转到 C:WindowsSystem32driversetchosts,然后输入 IP 地址和主机名,中间用空格分隔符隔开。你需要管理员权限才能执行此操作。

下载和运行 MapR Sandbox 的说明如下:

(1)从https://www.mapr.com/products/mapr-sandbox-hadoop/download下载最新的 sandbox。请根据笔记本电脑上安装的虚拟化软件(VirtualBox 或 VMWare)下载相应的版本。

(2)按照 http://doc.mapr.com/display/MapR/MapR+Sandbox+for+Hadoop上的说明设置 sandbox。

(3)使用 Putty 登录到 sandbox。

(4)root 用户的密码是 mapr。

(5)要启动 HUE 或 MapR 控制系统(MapR Control System,MCS),请导航到 MapR Sandbox 提供的 URL。

(6)要将主机名映射到 Windows 中的 IP 地址,请转到 C:WindowsSystem32driversetchosts,然后输入 IP 地址和主机名,中间用空格分隔符隔开。

下面给出了下载和运行 Apache Spark 预制二进制文件的说明,以便在你预先安装了 Hadoop 集群的情况下使用。以下说明还可用于安装最新版本的 Spark,并在之前的虚拟机上使用它:

(1)从以下位置下载为 Hadoop 预制的 Spark:

(2)把 SPARK_HOME 和 PATH 变量添加到配置文件脚本,如以下命令所示,这样每次登录时这些环境变量就都设置好了:

(3)通过向 spark-env.sh 添加以下环境变量,让 Spark 了解 Hadoop 配置目录和 Java home。请复制 conf 目录中的模板文件:

(4)将 hive-site.xml 复制到 Spark 的 conf 目录:

(5)在复制模板文件后,将 spark-2.0.0-bin-hadoop2.7/conf/log4j.properties 文件中的日志级别(log level)更改为 ERROR。

时间: 2024-09-08 18:26:45

《Spark与Hadoop大数据分析》——2.4 安装 Hadoop 和 Spark 集群的相关文章

《Spark与Hadoop大数据分析》——3.1 启动 Spark 守护进程

3.1 启动 Spark 守护进程 如果你计划使用 Standalone 的集群管理器,则需要启动 Spark 的主机(master)和工作机(worker)的守护进程(daemon),它们是 Spark 架构的核心组件.守护进程的启动/停止在不同的发行版里略有差异.Hadoop 发行版(如 Cloudera.Hortonworks 和 MapR)会把 Spark 作为服务,并把 YARN 作为默认的资源管理器.这意味着在默认情况下所有 Spark 应用程序都会在 YARN 框架上运行.但是,要

《Spark与Hadoop大数据分析》——2.2 Apache Spark概述

2.2 Apache Spark概述 Hadoop和MR已有10年历史,已经被证明是高性能处理海量数据的最佳解决方案.然而,MR在迭代计算中性能不足,在这种情况下,多个MR作业之间的输出必须被写入 HDFS.在单个MR作业中,它的性能不足则是因为MR框架存在的一些缺点所致. 让我们来看看计算趋势的发展历史,以便了解计算的格局在过去20年中的变化. 这个趋势是当网络成本更低时(1990年代)对URI索引(Reference),当存储成本更低时(2000 年代)进行复制(Replicate),以及当

《Spark与Hadoop大数据分析》一一3.6 Spark 资源管理器:Standalone、YARN和Mesos

3.6 Spark 资源管理器:Standalone.YARN和Mesos 在本章其他部分(在 PySpark shell 和应用程序中),我们已经在 Spark 的 Standalone 资源管理器中执行过 Spark 应用程序.让我们尝试理解这些集群资源管理器相互之间有什么不同,以及它们该在什么情况下使用.3.6.1 本地和集群模式 在继续讲解集群资源管理器之前,让我们来了解集群模式与本地模式的区别. 当跨集群执行代码时,了解变量和方法的范围和生命周期非常重要.让我们看一个使用 foreac

《Spark与Hadoop大数据分析》——3.2 学习Spark的核心概念

3.2 学习Spark的核心概念 在本节,我们要了解 Spark 的核心概念.Spark 提供的主要抽象是弹性分布式数据集(Resilient Distributed Dataset,RDD).因此,我们要了解 RDD 是什么,以及提供内存级性能和容错的 RDD 中包含的运算.但是,首先我们要学习使用 Spark 的方法. 3.2.1 使用 Spark 的方法 使用 Spark 有两种方法,即 Spark Shell 和 Spark 应用程序. 1. Spark Shell 这是可以利用 Sca

《Spark与Hadoop大数据分析》一一3.3 Spark 程序的生命周期

3.3 Spark 程序的生命周期 以下步骤讲解了配备 Standalone 资源管理器的 Spark 应用程序的生命周期,图3-8 显示了Spark程序的调度过程: (1)用户使用 spark-submit 命令提交一个 Spark 应用程序. (2)spark-submit 在同一节点(客户端模式)或集群(集群模式)上启动驱动进程,并调用由用户指定的 main 方法. (3)驱动进程联系集群管理器,根据提供的配置参数来请求启动执行进程 JVM 所需的资源. (4)集群管理器在工作机节点上启动

《Spark与Hadoop大数据分析》一一3.4 Spark 应用程序

3.4 Spark 应用程序 让我们来了解 Spark Shell 和 Spark 应用程序之间的区别,以及如何创建和提交它们.3.4.1 Spark Shell 和 Spark 应用程序Spark 让你可以通过一个简单的.专门用于执行 Scala.Python.R 和 SQL 代码的 Spark shell 访问数据集.用户探索数据并不需要创建一个完整的应用程序.他们可以用命令开始探索数据,这些命令以后可以转换为程序.这种方式提供了更高的开发生产效率.Spark 应用程序则是使用 spark-

《Spark与Hadoop大数据分析》一一导读

Preface 前 言 本书讲解了Apache Spark和Hadoop的基础知识,以及如何通过简单的方式将它们与最常用的工具和技术集成在一起.所有Spark组件(Spark Core.Spark SQL.DataFrame.Dataset.Conventional Streaming.Structured Streaming.MLlib.GraphX和Hadoop核心组件).HDFS.MapReduce和Yarn 都在 Spark + Hadoop 集群的实现示例中进行了深入的探讨. 大数据分

《Spark与Hadoop大数据分析》——导读

前 言 本书讲解了Apache Spark和Hadoop的基础知识,以及如何通过简单的方式将它们与最常用的工具和技术集成在一起.所有Spark组件(Spark Core.Spark SQL.DataFrame.Dataset.Conventional Streaming.Structured Streaming.MLlib.GraphX和Hadoop核心组件).HDFS.MapReduce和Yarn 都在 Spark + Hadoop 集群的实现示例中进行了深入的探讨. 大数据分析行业正在从 M

《Spark与Hadoop大数据分析》一一2.1 Apache Hadoop概述

2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理.Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建.Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障.此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量.它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据.分

《Spark与Hadoop大数据分析》——1.3 工具和技术

1.3 工具和技术 让我们来看看在 Hadoop 和 Spark 中用于大数据分析的不同工具和技术. 虽然 Hadoop 平台可以用于存储和处理数据,但 Spark 只能通过将数据读入内存来进行处理. 下表展示了典型大数据分析项目中所使用的工具和技术.