Spark学习之RDD编程（2）

1. Spark中的RDD是一个不可变的分布式对象集合。

2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。

3. 创建RDD:1）读取一个外部数据集2）在驱动器程序里分发驱动器程序中的对象集合。

4. RDD支持的操作：

1）转换操作，由一个RDD生成一个新的RDD。
2）行动操作，对RDD进行计算结果，并把结果返回到驱动器程序中，或者把结果存储到外部存储系统（如HDFS）。

5. Spark程序或者shell会话都会按如下方式工作：

1）从外部数据创建出输入RDD。
2）使用诸如filter()这样的转化操作对RDD进行转化，以定义一个新的RDD。
3）告诉Spark对需要被重用的中间结果RDD执行persist()操作。
4）使用行动操作 （例如count()和first()等)来触发一次并行计算，Spark会对计算进行优化后在执行。

6. 创建RDD

快速创建RDD，把程序中一个已有的集合传给SparkContext的parallelize()方法，不过这种方法除了开发原型和测试时，这种方式用的并不多。
Python中的parallelize()方法

    lines = sc.parallelize(["pandas","i like pandas"])

Scala中的parallelize()方法

    val lines = sc.parallelize(List("pandas","i like pandas"))

Java中的parallelize()方法

    JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas","i like pandas"))

7. 惰性求值

RDD的转化操作都是惰性求值的。

8. 向Spark传递函数

8.1 Python
传递比较短的函数，使用lambda表达式来传递；也可以传递顶层函数或是定义的局部函数。
8.2 Scala，可以定义的内联函数、方法的引用或静态方法传递给Spark，就行Scala的其他函数式API一样。
8.3 Java，函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。

9. 常见的转化操作和行动操作

9.1 针对个元素的转化操作
flatmap()       对每个输入元素生成多个输出元素。
map()           接受一个函数，把这个函数用于RDD中的每个元素，将函数的返回结果作为结果RDD中的对应元素的。返回的类型不必和输入类型相同。
filter()        接受一个函数，并将RDD中满足该函数的元素放入新RDD中返回。
distinct()      去重
sample(withReplacement,fraction,[seed])         对RDD采样，以及是否替换
9.2 伪集合操作
合并和相交要求RDD数据类型相同。
(不需混洗)union()           生成一个包含两个RDD中所有元素的RDD
(需要混洗)intersection()    求两个RDD共同的元素的RDD
(需要混洗)subtract()        移除一个RDD中的内容
(需要混洗)cartesian)()      与另一个RDD的笛卡尔积

时间： 2024-11-08 19:13:36

Spark学习之RDD编程（2）的相关文章

Spark学习之RDD简单算子

collect 返回RDD的所有元素 scala> var input=sc.parallelize(Array(-1,0,1,2,2)) input: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[15] at parallelize at <console>:27 scala> var result=input.collect result: Array[Int] = Array(-1, 0, 1, 2, 2)

Spark学习之键值对（pair RDD）操作（3）

Spark学习之键值对(pair RDD)操作(3) 1. 我们通常从一个RDD中提取某些字段(如代表事件时间.用户ID或者其他标识符的字段),并使用这些字段为pair RDD操作中的键. 2. 创建pair RDD 1)读取本身就是键值对的数据 2)一个普通的RDD通过map()转为pair RDD,传递的函数需要返回键值对. Python中使用第一个单词作为键创建出一个pair RDD pairs = lines.amp(lambda x: (x.split(" ")[0],x))

《Spark快速大数据分析》—— 第三章 RDD编程

本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第三章 RDD编程,如需转载请自行联系原博主.

『 Spark 』5. 这些年，你不能错过的 spark 学习资源

原文链接:『 Spark 』5. 这些年,你不能错过的 spark 学习资源写在前面本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来.写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了.若想深入了解,最好阅读参考文章和官方文档. 其次,本系列是基于目前最新的 spark 1.6.0 系列开始的,spa

从Storm和Spark 学习流式实时分布式计算的设计

0. 背景最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛.本来想就写Spark源码分析的文章吧.但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够.因此,我将最近一直在做的系统架构的思路整理出来,形成此文.为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到每个具体实现背后的意义. 本文对流式系统出现的背景,特点,数据HA,服务HA,节点间和计算逻辑间

Spark学习之基础相关组件（1）

Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台. 2. Spark的一个主要特点是能够在内存中进行计算,因而更快. 3. RDD(resilient distributed dataset弹性分布式数据集)表示分布在多个计算节点上可以并行操作的元素的集合,是Spark的主要编程抽象. 4. Spark是一个大一统的软件栈: 4.1 Spark core实现了Spark的基本功能,包括任务调度.内存管理.错误恢复.与存储系统交互等模块.Spark Co

Spark学习之数据读取与保存（4）

Spark学习之数据读取与保存(4) 1. 文件格式 Spark对很多种文件格式的读取和保存方式都很简单. 如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件.通过扩展名进行处理. 2. 读取/保存文本文件 Python中读取一个文本文件 input = sc.textfile("file:///home/holen/repos/spark/README.md") Scala中读取一个文本文件 val input = sc.textFile(&q

Spark学习之Spark调优与调试（7）

Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. Spark特定的优先级顺序来选择实际配置: 优先级最高的是在用户代码中显示调用set()方法设置选项: 其次是通过spark-submit传递的参数: 再次是写在配置文件里的值: 最后是系统的默认值. 3.查看应用进度信息和性能指标有两种方式:网页用户界面.驱动器和执行器进程生成的日志文件. 4.

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述在Spark MLlib中,推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法.而基于的算法是FunkSVD算法,即将m个用户和n个物品对应的评分矩阵M分解为两个低维的矩阵: 其中k为分解成低维的维数,一般远比m和n小.如果大家对FunkSVD算法不熟悉,可以复习对应的原理篇. 2. Spark推荐算法类库介绍在Spar