《Spark大数据分析实战》——第1章Spark简介

第1章
Spark简介
本章主要介绍Spark框架的概念、生态系统、架构及RDD等,并围绕Spark的BDAS 项目及其子项目进行了简要介绍。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,本章只进行简要介绍,后续章节会有详细阐述。

时间: 2024-11-08 23:48:29

《Spark大数据分析实战》——第1章Spark简介的相关文章

《Spark快速大数据分析》—— 第六章 Spark编程进阶

这章讲述了Spark编程中的高级部分,比如累加器和广播等,以及分区和管道... 本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第六章 Spark编程进阶,如需转载请自行联系原博主.

《Spark核心技术与高级应用》——第2章Spark部署和运行

第2章Spark部署和运行合抱之木,生于毫末:九层之台,起于累土:千里之行,始于足下.--<道德经>第六十四章合抱的粗木,是从细如针毫时长起来的:九层的高台,是一筐土一筐土筑起来的:千里的行程,是一步又一步迈出来的.那么,Spark高手之路,是从Spark部署和运行开始的,只要坚持,就一定会有收获!对于大部分想学习Spark的人而言,如何构建稳定的Spark集群是学习的重点之一,为了解决构建Spark集群的困难,本章内容从简入手,循序渐进,主要包括:部署准备工作.本地模式部署.独立模式部署.Y

《Spark核心技术与高级应用》——2.4节本章小结

2.4 本章小结正所谓工欲善其事必先利其器,Spark的部署和运行并不复杂,但是其作用范围之广,兼容能力之强值得我们深究和讨论.本章从SBT与Maven两种编译Spark的方式展开,以Local模式.Standalone模式和YARN模式为基础,详细地讲解了Spark的部署和运行,介绍了Spark在各个模式下的区别和特点,希望能为接下来的Spark编程打下良好的基础.

《Spark核心技术与高级应用》——第1章Spark简介

第1章Spark简介上善若水,水善利万物而不争.--<道德经>第八章数据一如水,无色无味,非方非圆,以百态存于自然,于自然无违也.绵绵密密,微则无声,巨则汹涌:与人无争却又容纳万物.生活离不开水,同样离不开数据,我们被数据包围,在数据中生活.当数据越来越多时,就成了大数据.想要理解大数据,就需要理解大数据相关的查询.处理.机器学习.图计算和统计分析等,Spark作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选.现在,让我们以向大师致敬的方式开始学习之旅,向Do

《Spark核心技术与高级应用》——第3章Spark程序开发

第3章Spark程序开发致虚极,守静笃.万物并作,吾以观复.--<道德经>第十六章这世间,一切原本都是空虚而宁静的,万物也因而能够在其中生长.因此,要追寻万物的本质,必须恢复其最原始的虚静状态,只有致虚和守静做到极笃的境地,万物才能蓬勃生长,往复循环.作为程序员,怎么提倡超越都不为过,但落地到具体问题,我们需要有比较实际的措施.从简单程序开始,以致虚和守静的心态,清空自己在大数据方向不劳而获的幻想,逐步成长为业内有影响力的角色.对于大部分程序员而言,本章内容略显基础,首先通过Spark交互Sh

《Spark核心技术与高级应用》——导读

目 录 前 言 基 础 篇第1章 Spark简介 1.1 什么是Spark1.2 Spark的重要扩展1.3 本章小结第2章 Spark部署和运行2.1 部署准备2.2 Spark部署2.3 运行Spark应用程序2.4 本章小结第3章 Spark程序开发3.1 使用Spark Shell编写程序3.2 构建Spark的开发环境3.3 独立应用程序编程 3.4 本章小结第4章 编程模型4.1 RDD介绍4.2 创建RDD4.3 RDD操作4.4 共享变量4.5 本章小结第5章 作业执行解析5.1

《Spark核心技术与高级应用》——2.3节运行Spark应用程序

2.3 运行Spark应用程序 运行Spark应用程序主要包括Local模式运行.Standalone模式运行.YARN模式运行.Mesos模式运行(参考官方文档).2.3.1 Local模式运行Spark应用程序 Local模式运行Spark应用程序是最简单的方式,以计算圆周率的程序为例,进入安装主目录,如spark-1.5.0,执行命令: # 提交Spark任务的入口 ./bin/spark-submit \ #主程序设置本地,local[],其中是指设置线程数 --master local

《Spark核心技术与高级应用》——2.2节Spark部署

2.2 Spark部署Spark部署主要包括Local模式部署.Standalone模式部署.YARN模式部署.Mesos模式部署(参考官方文档).其中,集群部署模式如下:独立部署模式:Spark自带的一种简单集群管理器,使用该集群管理器可以轻松地建立一个集群:Apache Mesos:一个通用的集群管理器,该集群管理器也可以运行MapReduce和服务应用(实际业务没有采取该种架构,本书没有对该模式进行专门讲解,如需要了解,请参考官方文档):Hadoop YARN:Hadoop 2中的资源管理

《Spark核心技术与高级应用》——3.2节构建Spark的开发环境

3.2 构建Spark的开发环境无论Windows或Linux操作系统,构建Spark开发环境的思路一致,基于Eclipse或Idea,通过Java.Scala或Python语言进行开发.安装之前需要提前准备好JDK.Scala或Python环境,然后在Eclipse中下载安装Scala或Python插件.3.2.1 准备环境准备环境包括JDK.Scala和Python的安装.1.安装JDK(1)下载JDK(1.7以上版本)下载地址:http://www.oracle.com/technetwo

《Spark大数据分析实战》——第3章BDAS简介

第3章 BDAS简介 提到Spark不得不说伯克利大学AMPLab开发的BDAS(Berkeley Data Analytics Stack)数据分析的软件栈,如图3-1所示是其中的Spark生态系统.其中用内存分布式大数据计算引擎Spark替代原有的MapReduce,上层通过Spark SQL替代Hive等SQL on Hadoop系统,Spark Streaming替换Storm等流式计算框架,GraphX替换GraphLab等大规模图计算框架,MLlib替换Mahout等机器学习框架等,