《Spark与Hadoop大数据分析》一一第2章 Apache Hadoop和Apache Spark入门

第2章 Apache Hadoop和Apache Spark入门

在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具。
本章分为以下几个子主题:
介绍 Apache Hadoop
介绍 Apache Spark
讨论为什么要配套使用 Hadoop 和 Spark
安装 Hadoop 和 Spark 集群

时间: 2024-12-27 16:12:17

《Spark与Hadoop大数据分析》一一第2章 Apache Hadoop和Apache Spark入门的相关文章

《Spark与Hadoop大数据分析》——第1章 从宏观视角看大数据分析

第1章 从宏观视角看大数据分析 本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具.大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战.本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器(Yet Another Resource Negotiator,YARN)面临的集成挑战,以及Spa

《Spark与Hadoop大数据分析》——2.4 安装 Hadoop 和 Spark 集群

2.4 安装 Hadoop 和 Spark 集群 在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本.在 Cloudera.Hortonworks和MapR这所有三种流行的Hadoop发行版中,Spark都是作为服务提供的.在本书编写的时候,最新的Hadoop和Spark版本分别是2.7.2和2.0.但是,Hadoop发行版里可能是一个较低版本的Spark,这是因为Hadoop和 Spark 的发行周期并不同步. 对于后续章节的实践练习,我们会使用来自 Clo

《Spark与Hadoop大数据分析》——第2章 Apache Hadoop和Apache Spark入门

第2章 Apache Hadoop和Apache Spark入门 在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具. 本章分为以下几个子主题:

《Spark与Hadoop大数据分析》——第3章 深入剖析Apache Spark

第3章 深入剖析Apache Spark Apache Spark 的技术.社区和用户群都在快速增长.2015 年推出了两个新的API:DataFrame API 和 DataSet API.这两个 API 构建在基于 RDD 的核心 API 之上.我们有必要了解 RDD 的更深层概念,包括运行时的架构和它在 Spark 各种资源管理器上的表现. 本章分为以下子主题:

《Spark与Hadoop大数据分析》一一第1章 从宏观视角看大数据分析

第1章 从宏观视角看大数据分析 本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具.大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战.本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器(Yet Another Resource Negotiator,YARN)面临的集成挑战,以及Spa

《Spark与Hadoop大数据分析》——2.2 Apache Spark概述

2.2 Apache Spark概述 Hadoop和MR已有10年历史,已经被证明是高性能处理海量数据的最佳解决方案.然而,MR在迭代计算中性能不足,在这种情况下,多个MR作业之间的输出必须被写入 HDFS.在单个MR作业中,它的性能不足则是因为MR框架存在的一些缺点所致. 让我们来看看计算趋势的发展历史,以便了解计算的格局在过去20年中的变化. 这个趋势是当网络成本更低时(1990年代)对URI索引(Reference),当存储成本更低时(2000 年代)进行复制(Replicate),以及当

《Spark与Hadoop大数据分析》——1.3 工具和技术

1.3 工具和技术 让我们来看看在 Hadoop 和 Spark 中用于大数据分析的不同工具和技术. 虽然 Hadoop 平台可以用于存储和处理数据,但 Spark 只能通过将数据读入内存来进行处理. 下表展示了典型大数据分析项目中所使用的工具和技术.

《Spark快速大数据分析》—— 第五章 数据读取和保存

由于Spark是在Hadoop家族之上发展出来的,因此底层为了兼容hadoop,支持了多种的数据格式.如S3.HDFS.Cassandra.HBase,有了这些数据的组织形式,数据的来源和存储都可以多样化~ 本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第五章 数据读取和保存,如需转载请自行联系原博主.

《Spark快速大数据分析》—— 第七章 在集群上运行Spark

本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第七章 在集群上运行Spark,如需转载请自行联系原博主.

《Spark快速大数据分析》—— 第六章 Spark编程进阶

这章讲述了Spark编程中的高级部分,比如累加器和广播等,以及分区和管道... 本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第六章 Spark编程进阶,如需转载请自行联系原博主.