《Spark与Hadoop大数据分析》一一第3章 深入剖析Apache Spark

第3章 深入剖析Apache Spark

Apache Spark 的技术、社区和用户群都在快速增长。2015 年推出了两个新的API:DataFrame API 和 DataSet API。这两个 API 构建在基于 RDD 的核心 API 之上。我们有必要了解 RDD 的更深层概念,包括运行时的架构和它在 Spark 各种资源管理器上的表现。
本章分为以下子主题:
启动 Spark 守护进程
Spark 的核心概念
键值对 RDD
Spark 程序的生命周期
Spark 应用程序
持久化和缓存
Spark 资源管理器:Standalone、Yarn和 Mesos

时间: 2024-09-21 14:00:33

《Spark与Hadoop大数据分析》一一第3章 深入剖析Apache Spark的相关文章

《Spark与Hadoop大数据分析》——第3章 深入剖析Apache Spark

第3章 深入剖析Apache Spark Apache Spark 的技术.社区和用户群都在快速增长.2015 年推出了两个新的API:DataFrame API 和 DataSet API.这两个 API 构建在基于 RDD 的核心 API 之上.我们有必要了解 RDD 的更深层概念,包括运行时的架构和它在 Spark 各种资源管理器上的表现. 本章分为以下子主题:

《Spark与Hadoop大数据分析》——第1章 从宏观视角看大数据分析

第1章 从宏观视角看大数据分析 本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具.大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战.本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器(Yet Another Resource Negotiator,YARN)面临的集成挑战,以及Spa

《Spark与Hadoop大数据分析》——第2章 Apache Hadoop和Apache Spark入门

第2章 Apache Hadoop和Apache Spark入门 在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具. 本章分为以下几个子主题:

《Spark与Hadoop大数据分析》一一导读

Preface 前 言 本书讲解了Apache Spark和Hadoop的基础知识,以及如何通过简单的方式将它们与最常用的工具和技术集成在一起.所有Spark组件(Spark Core.Spark SQL.DataFrame.Dataset.Conventional Streaming.Structured Streaming.MLlib.GraphX和Hadoop核心组件).HDFS.MapReduce和Yarn 都在 Spark + Hadoop 集群的实现示例中进行了深入的探讨. 大数据分

《Spark与Hadoop大数据分析》——导读

前 言 本书讲解了Apache Spark和Hadoop的基础知识,以及如何通过简单的方式将它们与最常用的工具和技术集成在一起.所有Spark组件(Spark Core.Spark SQL.DataFrame.Dataset.Conventional Streaming.Structured Streaming.MLlib.GraphX和Hadoop核心组件).HDFS.MapReduce和Yarn 都在 Spark + Hadoop 集群的实现示例中进行了深入的探讨. 大数据分析行业正在从 M

《Spark与Hadoop大数据分析》——1.3 工具和技术

1.3 工具和技术 让我们来看看在 Hadoop 和 Spark 中用于大数据分析的不同工具和技术. 虽然 Hadoop 平台可以用于存储和处理数据,但 Spark 只能通过将数据读入内存来进行处理. 下表展示了典型大数据分析项目中所使用的工具和技术.

《Spark与Hadoop大数据分析》一一

3.1 启动 Spark 守护进程 如果你计划使用 Standalone 的集群管理器,则需要启动 Spark 的主机(master)和工作机(worker)的守护进程(daemon),它们是 Spark 架构的核心组件.守护进程的启动/停止在不同的发行版里略有差异.Hadoop 发行版(如 Cloudera.Hortonworks 和 MapR)会把 Spark 作为服务,并把 YARN 作为默认的资源管理器.这意味着在默认情况下所有 Spark 应用程序都会在 YARN 框架上运行.但是,要

《Spark与Hadoop大数据分析》一一第1章 从宏观视角看大数据分析

第1章 从宏观视角看大数据分析 本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具.大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战.本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器(Yet Another Resource Negotiator,YARN)面临的集成挑战,以及Spa

《Spark与Hadoop大数据分析》一一1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数据库来创建数据仓库和数据集市,以便使用商业智能工具进行分析.RDBMS 数据库采用的是写时模式(Schema-on-Write)的方法,而这种方法有许多缺点.传统数据仓库的设计思想是用于提取.转换和加载(Extract, Transform, and Load,ETL)数据,据此回答与用户需求直