《Spark大数据分析实战》——第2章Spark开发与环境配置

第2章
Spark开发与环境配置
用户进行Spark应用程序开发，一般在用户本地进行单机开发调试，之后再将作业提交到集群生产环境中运行。下面将介绍Spark开发环境的配置，如何编译和进行源码阅读环境的配置。
用户可以在官网上下载最新的AS软件包，网址为：http://spark.apache.org/。

时间： 2024-09-20 15:40:25

《Spark大数据分析实战》——第2章Spark开发与环境配置的相关文章

《Spark快速大数据分析》—— 第六章 Spark编程进阶

这章讲述了Spark编程中的高级部分,比如累加器和广播等,以及分区和管道... 本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第六章 Spark编程进阶,如需转载请自行联系原博主.

《Spark大数据分析实战》——3.5节本章小结

3.5 本章小结本章主要介绍了BDAS中广泛应用的几个数据分析组件.SQL on Spark提供在Spark上的SQL查询功能.让用户可以基于内存计算和SQL进行大数据分析.通过Spark Streaming,用户可以构建实时流处理应用,其高吞吐量,以及适合历史和实时数据混合分析的特性使其在流数据处理框架中突出重围.GraphX充当Spark生态系统中图计算的角色,其简洁的API让图处理算法的书写更加便捷.最后介绍了MLlib--Spark上的机器学习库,它充分利用Spark内存计算和适合迭代的

《Spark大数据分析实战》——第1章Spark简介

第1章Spark简介本章主要介绍Spark框架的概念.生态系统.架构及RDD等,并围绕Spark的BDAS 项目及其子项目进行了简要介绍.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,本章只进行简要介绍,后续章节会有详细阐述.

《Spark大数据分析实战》——1.5节本章小结

1.5 本章小结本章首先介绍了Spark分布式计算平台的基本概念.原理以及Spark生态系统BDAS之上的典型组件.Spark为用户提供了系统底层细节透明.编程接口简洁的分布式计算平台.Spark具有内存计算.实时性高.容错性好等突出特点.同时本章介绍了Spark的计算模型,Spark会将应用程序整体翻译为一个有向无环图进行调度和执行.相比MapReduce,Spark提供了更加优化和复杂的执行流.读者还可以深入了解Spark的运行机制与Spark算子,这样能更加直观地了解API的使用.Spar

《Spark大数据分析实战》——3.3节GraphX

3.3 GraphX GraphX是Spark中的一个重要子项目,它利用Spark作为计算引擎,实现了大规模图计算的功能,并提供了类似Pregel的编程接口.GraphX的出现,将Spark生态系统变得更加完善和丰富:同时以其与Spark生态系统其他组件很好的融合,以及强大的图数据处理能力,在工业界得到了广泛的应用.本章主要介绍GraphX的架构.原理和使用方式.3.3.1 GraphX简介 GraphX是常用图算法在Spark上的并行化实现,同时提供了丰富的API接口.图算法是很多复杂机器学习

《Spark大数据分析实战》——3.1节SQL on Spark

3.1 SQL on Spark AMPLab将大数据分析负载分为三大类型:批量数据处理.交互式查询.实时流处理.而其中很重要的一环便是交互式查询.大数据分析栈中需要满足用户ad-hoc.reporting.iterative等类型的查询需求,也需要提供SQL接口来兼容原有数据库用户的使用习惯,同时也需要SQL能够进行关系模式的重组.完成这些重要的SQL任务的便是Spark SQL和Shark这两个开源分布式大数据查询引擎,它们可以理解为轻量级Hive SQL在Spark上的实现,业界将该类技术

《Spark大数据分析实战》——1.2节Spark生态系统BDAS

1.2 Spark生态系统BDAS 目前,Spark已经发展成为包含众多子项目的大数据计算平台.BDAS是伯克利大学提出的基于Spark的数据分析栈(BDAS).其核心框架是Spark,同时涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL,提供机器学习功能的系统MLBase及底层的分布式机器学习库MLlib,并行图计算框架GraphX,流计算框架Spark Streaming,近似查询引擎BlinkDB,内存分布式文件系统Tachyon,资源管理框架Mesos等子项目.这些子项目在

《Spark大数据分析实战》——3.2节Spark Streaming

3.2 Spark StreamingSpark Streaming是一个批处理的流式计算框架.它的核心执行引擎是Spark,适合处理实时数据与历史数据混合处理的场景,并保证容错性.下面将对Spark Streaming进行详细的介绍.3.2.1 Spark Streaming简介Spark Streaming是构建在Spark上的实时计算框架,扩展了Spark流式大数据处理能力.Spark Streaming将数据流以时间片为单位进行分割形成RDD,使用RDD操作处理每一块数据,每块数据(也就

《Spark大数据分析实战》——2.1节Spark应用开发环境配置

2.1 Spark应用开发环境配置 Spark的开发可以通过Intellij或者Eclipse IDE进行,在环境配置的开始阶段,还需要安装相应的Scala插件.2.1.1 使用Intellij开发Spark程序本节介绍如何使用Intellij IDEA构建Spark开发环境和源码阅读环境.由于Intellij对Scala的支持更好,目前Spark开发团队主要使用Intellij作为开发环境. 1.?配置开发环境 (1)安装JDK 用户可以自行安装JDK8.官网地址:http://www.or