《Spark与Hadoop大数据分析》一一导读

Preface 前  言

本书讲解了Apache Spark和Hadoop的基础知识,以及如何通过简单的方式将它们与最常用的工具和技术集成在一起。所有Spark组件(Spark Core、Spark SQL、DataFrame、Dataset、Conventional Streaming、Structured Streaming、MLlib、GraphX和Hadoop核心组件)、HDFS、MapReduce和Yarn 都在 Spark + Hadoop 集群的实现示例中进行了深入的探讨。
大数据分析行业正在从 MapReduce 转向Spark。因此,本书深入讨论了 Spark 相比 MapReduce 的优势,从而揭示出它在内存计算速度方面的好处。我们还会讲解如何运用 DataFrame API、Data Sources API,以及新的 Dataset API 来构建大数据分析应用程序。书中还讲解了如何使用 Spark Streaming 配合 Apache Kafka 和 HBase 进行实时数据分析,以帮助构建流式应用程序(streaming application)。新的结构化流(Structured Streaming)概念会通过物联网(Internet of Things,IOT)用例来解释。在本书中,机器学习技术会使用 MLLib、机器学习流水线和 SparkR 来实现;图分析则会利用Spark的GraphX 和GraphFrames 组件包来进行。
本书还介绍了基于Web的笔记本(如Jupyter和Apache Zeppelin)和数据流工具Apache NiFi,它们用于分析和可视化数据,以及利用 Livy 服务器把Spark作为一个服务提供给用户。

目录

第1章 从宏观视角看大数据分析

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色
1.2 大数据科学以及Hadoop和Spark在其中承担的角色
1.3 工具和技术
1.4 实际环境中的用例
1.5 小结

第2章 Apache Hadoop和Apache Spark入门

2.1 Apache Hadoop概述
2.2 Apache Spark概述
2.3 为何把 Hadoop 和 Spark 结合使用
2.4 安装 Hadoop 和 Spark 集群
2.5 小结

第3章 深入剖析Apache Spark

3.1 启动 Spark 守护进程
3.2 学习Spark的核心概念
3.3 Spark 程序的生命周期
3.4 Spark 应用程序
3.5 持久化与缓存
3.6 Spark 资源管理器:Standalone、YARN和Mesos
3.7 小结

时间: 2024-11-02 05:26:28

《Spark与Hadoop大数据分析》一一导读的相关文章

《算法设计与分析》一一导读

前言 算法是计算的灵魂(spirit of computing),而算法设计与分析的基础知识是计算机科学的基石.算法设计与分析的知识内容很丰富,可以从不同视角进行组织与阐述.一种视角是关注经典的算法问题,如排序.选择.查找.图遍历等:另一种视角是关注经典的算法设计策略,包括分治.贪心.动态规划等.本书的组织兼顾问题与策略两种视角.首先按照经典的算法设计策略,将书中的主体内容分为遍历.分治.贪心.动态规划4个部分.其次在每个部分之内,又围绕经典的算法问题来阐述该部分所着重讨论的策略. 本书集中讨论

《算法设计与分析》一一2.1 数学运算背后的算法操作

2.1 数学运算背后的算法操作 虽然我们已经熟知很多数学概念与性质,但是从算法设计与分析的角度来看,还需要进一步将这些数学的概念与算法的运作联系起来.下面就从这一角度来讨论几组算法设计与分析中常用的数学概念与性质.2.1.1 取整x和x 我们熟知取整函数的定义:下取整函数x表示不超过x的最大整数:上取整函数x表示不小于x的最小整数.需要取整函数的本质原因在于算法分析中涉及的一些量往往是某种离散对象的个数,它必然是正整数.例如,算法的代价是关键操作的个数,问题的规模经常表示为输入元素的个数.输入数

《算法设计与分析》一一第3章 线性表的遍历

第3章 线性表的遍历 线性表是一种简单又广泛使用的数据结构.线性表中所有的元素组成线性序列.除头尾之外的每个元素都有唯一的前驱和后继:头元素只有后继,没有前驱,而尾元素只有前驱,没有后继.线性表的特征决定了我们很容易从头至尾依次扫描其中的每一个元素,而这一简单的遍历过程可以解决很多重要的算法问题. 线性表的遍历是在算法的简单性与高效性之间的一种权衡.基于线性表遍历的算法往往原理简单.易于实现和维护:但是其效率往往较低,有较大的提升空间.以线性表遍历为基础,我们可以进行更复杂的算法设计,例如,以遍

《算法设计与分析》一一第2章 从算法的视角重新审视数学的概念

第2章 从算法的视角重新审视数学的概念 CHAPTER 2 第2章 从算法的视角重新审视数学的概念根据我们在第1章中对抽象算法设计与分析的讨论,算法的本质是预先给定的一组指令的排列组合:而算法分析是对指令的执行和存储单元的使用等离散现象的计数.源于算法的这一本质属性,我们需要熟练掌握相应的数学知识为抽象算法设计与分析服务.这些数学知识往往是我们已经学习过的,现在的重点是要从抽象算法设计与分析的角度来重新审视它们.本章首先讨论算法设计与分析中常用的数学对象与数学性质.其次,为了进一步讨论算法代价的

屈婉玲-算法设计与分析课后习题答案

问题描述 算法设计与分析课后习题答案 需要算法设计与分析屈婉玲课后习题答案,希望哪位大神帮帮忙!大恩不言谢 解决方案 算法设计与分析课后习题3.2算法设计与分析课后习题3.5数据结构与算法分析课后习题第四章(1) 解决方案二: http://download.csdn.net/download/xiaomashengjie/6828333 不谢~

动态规划法求文本串的最优分行问题河海大学考博计算机算法设计与分析真题着急求解中

问题描述 动态规划法求文本串的最优分行问题河海大学考博计算机算法设计与分析真题着急求解中 列表并至少给出4步典型过程,求文本串"Do you like those people who always think of money and cannot remember the past."在列宽为15,惩罚函数为行空余空间的平方(最后一行不计惩罚)时的最优分行方案.不需要给出具体的实现代码.用动态规划算法给出列表

概率-算法设计与分析基础》书上看到的一道练习题

问题描述 算法设计与分析基础>书上看到的一道练习题 2C 丢失的袜子:假设在洗了5双各不相同的袜子以后,你发现有两只袜子不见了且每只袜子丢失的概率都相同,请找出最佳情况(留下四双完整袜子)的发生概率和最差情况(留下三双完整袜子)的发生概率以及平均情况下的概率. 解决方案 最佳情况发生的概率: C(51)/C(210) = 1/9最差情况发生的概率: 1 - 1/9 = 8/9 (因为非4即3),即:1-C(51)/C(102).顶多丢2双.期望: 4×(1/9)+ 3×(8/9) = 28/9

算法设计与分析 (希望答案能具体点)

问题描述 算法设计与分析 (希望答案能具体点) 设S1S2..Sk是整数集合每个集合Si(1<=i<=k)中整数取值范围是1到n且(求和 符号)|Si|=n试设计一个算法在O(n)时间内将S1S2..Sn分别排序.答案说用桶排序或者基数排序,有大神能快点解决么 解决方案 就用基数排序好了int sort(int * data int n){ int temp[k + 1]; for (int i = 1; i <=k; i++) temp[i] = 0; for (int i = 0;

《算法设计与分析》一一2.3 “分治递归”求解

2.3 "分治递归"求解 递归是一种基本的算法设计方法,而递归算法的代价往往可以用递归方程来描述,因而解递归方程就成为递归算法分析的重要技术.分治策略(divide and conquer)是一种简单而有效的算法设计策略(详见第三部分各章节的讨论),源自于分治算法分析的一类特定形式的递归方程我们称之为"分治递归"(divide and conquer recursion).本节着重讨论"分治递归"的求解方法.2.3.1 替换法 有一种"

《算法设计与分析》一一1.2 抽象算法设计

1.2 抽象算法设计 算法设计源于我们面临一个有待解决的算法问题.为此,我们首先讨论算法问题的严格定义,其次讨论算法设计,主要讨论证明算法正确性的基本方法.1.2.1 算法问题规约 基于RAM模型,我们主要讨论这样的算法:它接受有限的数据作为输入,进行相应的处理,在有限步内终止,并给出输出.因此我们可以将算法问题严格地定义为精确限定输入/输出的"规约"(specification)形式. 定义1.1(算法问题规约) 一个算法问题的规约主要包括两部分: ●输入:明确规定了算法接受的所有合