《Spark大数据分析实战》——1.2节Spark生态系统BDAS

1.2　Spark生态系统BDAS
目前，Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈（BDAS）。其核心框架是Spark，同时涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL，提供机器学习功能的系统MLBase及底层的分布式机器学习库MLlib，并行图计算框架GraphX，流计算框架Spark Streaming，近似查询引擎BlinkDB，内存分布式文件系统Tachyon，资源管理框架Mesos等子项目。这些子项目在Spark上层提供了更高层、更丰富的计算范式。

下面对BDAS的各个子项目进行更详细的介绍。
（1）Spark
Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map函数和reduce函数及计算模型，还提供了更为丰富的算子，例如f?ilter、join、groupByKey等。Spark将分布式数据抽象为RDD（弹性分布式数据集），并实现了应用任务调度、RPC、序列化和压缩，并为运行在其上层的组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴函数式的编程思想，提供与Scala类似的编程接口。
图1-2所示即为Spark的处理流程（主要对象为RDD）。
Spark将数据在分布式环境下分区，然后将作业转化为有向无环图（DAG），并分阶段进行DAG的调度和任务的分布式并行处理。
（2）Spark SQL
Spark SQL提供在大数据上的SQL查询功能，类似于Shark在整个生态系统的角色，它们可以统称为SQL on Spark。之前，由于Shark的查询编译和优化器依赖Hive，使得Shark不得不维护一套Hive分支。而Spark SQL使用Catalyst作为查询解析和优化器，并在底层使用Spark作为执行引擎实现SQL的算子。用户可以在Spark上直接书写SQL，相当于为Spark扩充了一套SQL算子，这无疑更加丰富了Spark的算子和功能。同时Spark SQL不断兼容不同的持久化存储（如HDFS、Hive等），为其发展奠定广阔的空间。

（3）Spark Streaming
Spark Streaming通过将流数据按指定时间片累积为RDD，然后将每个RDD进行批处理，进而实现大规模的流数据处理。其吞吐量能够超越现有主流流处理框架Storm，并提供丰富的API用于流数据计算。
（4）GraphX
GraphX基于BSP模型，在Spark之上封装类似Pregel的接口，进行大规模同步全局的图计算，尤其是当用户进行多轮迭代的时候，基于Spark内存计算的优势尤为明显。
（5）MLlib
MLlib是Spark之上的分布式机器学习算法库，同时包括相关的测试和数据生成器。MLlib支持常见的机器学习问题，例如分类、回归、聚类以及协同过滤，同时也包括一个底层的梯度下降优化基础算法。

时间： 2024-10-21 09:55:16

《Spark大数据分析实战》——1.2节Spark生态系统BDAS

《Spark大数据分析实战》——1.2节Spark生态系统BDAS的相关文章

《Spark大数据分析实战》——3.1节SQL on Spark

《Spark大数据分析实战》——3.3节GraphX

《Spark大数据分析实战》——3.2节Spark Streaming

《Spark大数据分析实战》——1.3节Spark架构与运行逻辑

《Spark大数据分析实战》——2.2节远程调试Spark程序

《Spark大数据分析实战》——2.3节Spark编译

《Spark大数据分析实战》——3.5节本章小结

《Spark大数据分析实战》——1.5节本章小结

《Spark大数据分析实战》——第2章Spark开发与环境配置