《Spark与Hadoop大数据分析》一一3.5　持久化与缓存

3.5　持久化与缓存

Spark 的一个独特功能是在内存中持久化 RDD。你可以使用 persist 或 cache 变换来持久化 RDD，如下所示：

上述两个语句都是相同的，并且会在 MEMORY_ONLY 存储级别缓存数据。它们的区别在于：cache 是指 MEMORY_ONLY 存储级别，而 persist 可以根据需要选择不同的存储级别，如下表所示。当第一次使用动作来进行计算时，它将保存在节点上的内存中。了解缓存 RDD 的百分比及其大小的最简单方法是检查管理界面中的 Storage 选项卡，如图3-11 所示：

图3-11　缓存的 RDD：缓存的百分比和大小
3.5.1　存储级别
根据应用需求的需要，RDD 可以用不同的存储级别来存储。下表显示了 Spark 的存储级别及其含义。

3.5.2　应该选择哪个存储级别
Spark 的各个存储级别在内存占用和 CPU 效率之间提供不同的权衡。你可以按照下面的过程选择其中一个：
如果整个 RDD 能放进内存中，请选择 MEMORY_ONLY。
使用 MEMORY_ONLY_SER 以获得更好的紧凑性和更好的性能。这对 Python 并不重要，因为它的对象总是会用 pickle 库序列化。
如果重新计算比从磁盘读取的开销更大，请使用 MEMORY_AND_DISK。
不要复制 RDD 存储，除非你需要快速的故障恢复。

时间： 2024-12-24 02:02:25

《Spark与Hadoop大数据分析》一一3.5　持久化与缓存的相关文章

《Spark与Hadoop大数据分析》——1.3　工具和技术

1.3 工具和技术让我们来看看在 Hadoop 和 Spark 中用于大数据分析的不同工具和技术. 虽然 Hadoop 平台可以用于存储和处理数据,但 Spark 只能通过将数据读入内存来进行处理. 下表展示了典型大数据分析项目中所使用的工具和技术.

《Spark与Hadoop大数据分析》一一

3.1 启动 Spark 守护进程如果你计划使用 Standalone 的集群管理器,则需要启动 Spark 的主机(master)和工作机(worker)的守护进程(daemon),它们是 Spark 架构的核心组件.守护进程的启动/停止在不同的发行版里略有差异.Hadoop 发行版(如 Cloudera.Hortonworks 和 MapR)会把 Spark 作为服务,并把 YARN 作为默认的资源管理器.这意味着在默认情况下所有 Spark 应用程序都会在 YARN 框架上运行.但是,要

《Spark与Hadoop大数据分析》一一第1章从宏观视角看大数据分析

第1章从宏观视角看大数据分析本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具.大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战.本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器(Yet Another Resource Negotiator,YARN)面临的集成挑战,以及Spa

《Spark与Hadoop大数据分析》一一导读

Preface 前言本书讲解了Apache Spark和Hadoop的基础知识,以及如何通过简单的方式将它们与最常用的工具和技术集成在一起.所有Spark组件(Spark Core.Spark SQL.DataFrame.Dataset.Conventional Streaming.Structured Streaming.MLlib.GraphX和Hadoop核心组件).HDFS.MapReduce和Yarn 都在 Spark + Hadoop 集群的实现示例中进行了深入的探讨. 大数据分

《Spark与Hadoop大数据分析》一一1.1　大数据分析以及 Hadoop 和 Spark 在其中承担的角色

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数据库来创建数据仓库和数据集市,以便使用商业智能工具进行分析.RDBMS 数据库采用的是写时模式(Schema-on-Write)的方法,而这种方法有许多缺点.传统数据仓库的设计思想是用于提取.转换和加载(Extract, Transform, and Load,ETL)数据,据此回答与用户需求直

《Spark与Hadoop大数据分析》一一2.1　Apache Hadoop概述

2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理.Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建.Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障.此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量.它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据.分

《Spark与Hadoop大数据分析》一一2.5　小结

2.5 小结 Apache Hadoop 提供了一个用于大数据存储的可靠且可扩展的框架(HDFS),以及一个用于运行和管理多个大数据应用程序的强大集群资源管理框架(YARN).Apache Spark 提供了大数据处理的内存级性能,以及用于交互式探索性分析.实时分析.机器学习和图分析的库和 API.虽然 MR 是 Hadoop 上的主要处理引擎,但它有很多缺点,例如性能较差和设计应用程序时不够灵活.Apache Spark 是 MR 的替代品.所有基于 MR 的工具(如 Hive.Pig.Mah

《Spark与Hadoop大数据分析》一一3.7　小结

3.7 小结 RDD 是 Spark 中基本的数据单元,Spark 编程就是围绕创建和执行 RDD 上的操作(如变换和动作)进行的.Apache Spark 程序可以在 shell 中交互式执行或通过提交应用程序来执行.它的并行度是由 RDD 中的分区数量决定的.而分区的数量则由 HDFS 文件中的区块数或资源管理器的类型以及用于非 HDFS 文件的配置属性决定.在内存中缓存 RDD 对于在同一 RDD 上执行多个动作是有用的,因为它提供了更高的性能.当使用 MEMORY_ONLY选项缓存 RD

《Spark与Hadoop大数据分析》一一2.4　安装 Hadoop 和 Spark 集群

2.4 安装 Hadoop 和 Spark 集群在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本.在 Cloudera.Hortonworks和MapR这所有三种流行的Hadoop发行版中,Spark都是作为服务提供的.在本书编写的时候,最新的Hadoop和Spark版本分别是2.7.2和2.0.但是,Hadoop发行版里可能是一个较低版本的Spark,这是因为Hadoop和 Spark 的发行周期并不同步.对于后续章节的实践练习,我们会使用来自 Clou

猜你喜欢

mvc-asp.net MVC怎么给图input type=file传过来的图片加水印

问题描述 asp.net MVC怎么给图input type=file传过来的图片加水印解决方案加水印后,在controller里面传到服务器里面保存解决方案二: 这是controller的代码 ...

语句从当前函数退出,并从那个函数返回一个值. return[()[expression][]]; 可选项 expression 参数是要从函数返回的值.如果省略,则该函数不返回值. 说明用 r ...

如何做好一个多人配合的flash项目

项目 1.做一个flash项目前,先设计好表现方式,再根据表现方式规划好各个部分的组成,考虑好今后可能会有的修改和扩展的地方. 2.层级管理,应给层做简单的命名,一个MC放一个层,排列有序,(注意层是 ...

bbs的树状算法的补充程序

程序|算法 ssql = "select gorders,glayer from bbs where gId=" & gId & " and goders ...

什么是元数据（Meta Date）

在读<Web信息架构>的时候第九章讲到叙词表.受控词表和元数据.当时书中的定义很模糊,所讲的篇幅也少,就没有在意,一直也没有能完全理解.今天在读<锦绣蓝图>的时候第 ...

如何处理MySQL密码有效性验证失败

详细解决办法如下: 提示:用windows账号登录成功后,右键实例,在"属性"窗口中, 转到"Security"(安全性)项, 查看"服务器身份验 ...

此windows副本不是正版怎么解决

首先在搜索栏目中输入cmd找到命令提示符,然后以管理员身份启动命令提示符. 在命令提示符窗口中输入SLMGR -REARM回车. 出现successful窗口中重启电脑即可.

《魔兽》遭黑客入侵主城横尸遍野

本文讲的是 : <魔兽>遭黑客入侵主城横尸遍野 , 北京时间今日早间,<魔兽世界>的北美服务器出现了主城玩家大量死亡的"灵异事件".当时所有停留在主 ...

Aop RealProxy 千年遇BUG

昨夜一名CYQ.Data 框架爱好者在测试V5Beta版本时,向我发一个问题, 说F5下正常,直接运行exe会报错,于是,一夜深究后,就有了今天的博文. 当你运行一段代码.一个软件,在运行时你发现 ...

神奇壮观！宇宙中上演的十大暴力事件

浩瀚的宇宙,充满着神秘和魅力.宇宙中每天都上演着无数美丽壮观的天文奇观,甚至是"大鱼吃小鱼"的暴力事件--大的星体如黑洞吞噬小的星体.天文学家近期就评出宇宙十大最为美丽壮观的暴力事 ...

如果你有个程序员男友，那么送这12 款键盘绝对不会错

简评:对于程序员而言电脑就是他们的用于挣面包的工具,也是他们生活中面对时间最长的东西,而对于写代码而言,键盘则是程序员的利器,程序员对于生活中很多事情可以都是凑合了事,但是对于电脑.键盘.鼠标这些却是 ...

中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立方

知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点.中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值.中国中文信息学会(CIPS)邀请了有约10家从事 ...

利用资源编排服务，创建安全组(SecurityGroup)访问规则

前面我们介绍了各种姿势创建ECS实例,例如:一键创建包年包月ECS实例, 通过资源编排创建一个ECS实例.本文详细介绍一下安全组(SecurityGroup). 资源简介 ROS 分别提供三种资源 A ...

汇编实现屏保功能

data segment x dw 0 y dw 0 x1 dw 0 y1 dw 0 col dw 0 row dw 1 ser dw 1 data ends stack segment db 20 ...

PostgreSQL BRIN索引内核代码优化思考

标签 PostgreSQL , BRIN 块级索引 , 扫描方法 , 数据结构 , pages_per_range算法背景 BRIN是PostgreSQL 9.5新增的块级索引接口,存储了被索引字段 ...

一步一步写算法（之克鲁斯卡尔算法中）

原文:一步一步写算法(之克鲁斯卡尔算法中) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 前面说到,克鲁斯卡尔的算法是按照各个li ...

c语言题目求解答~~~~~

问题描述 c语言题目求解答~~~~~ 自然数列1,2,3,4,5,......大家都很熟悉,现将自然数列写成一排,数字中间不留空格等任何分隔符号就成了如下这样123456789101112131415 ...

地方政府竞逐高世代

王如晨就在CBN记者前天刚写就合肥8代线已向国家发改委提交申请的稿件,南京中电熊猫传来消息,说是其8代项目也已通过当地环评. 如此,从华北到华东,再到华南,高世代面板项目几乎已将中国沿海省份串联起来 ...

WinForm 自动完成控件实例代码简析_C#教程

在Web的应用方面有js的插件实现自动完成(或叫智能提示)功能,但在WinForm窗体应用方面就没那么好了. TextBox控件本身是提供了一个自动提示功能,只要用上这三个属性: AutoComple ...

详解在C++中显式默认设置的函数和已删除的函数的方法_C 语言

在 C++11 中,默认函数和已删除函数使你可以显式控制是否自动生成特殊成员函数.已删除的函数还可为您提供简单语言,以防止所有类型的函数(特殊成员函数和普通成员函数以及非成员函数)的参数中出现有问题的 ...

快速伪原创文章来提升关键词排名的方法

1.站内文章需求有构思如今现已是互联网年代,从事关键字排名的人数目可谓数不胜数,各种各种的伪原创可谓层出不穷,这也造成了信息的不断重复性,假如咱们在更新站内文章时,没有留意到一个构思性疑问时,那 ...

CPU的编号怎么会重复呢？

问题描述我用以下的代码获取CPU的编号,但发现发好几台机子的编号是一样的,请问这是怎么回事呢?ManagementClasscimobject=newManagementClass("Wi ...

Redis开发与运维. 3.3　Pipeline

3.3 Pipeline 3.3.1 Pipeline概念 Redis客户端执行一条命令分为如下四个过程: 1)发送命令 2)命令排队 3)命令执行 4)返回结果其中1)+4)称为Round Tri ...

Spring 三大基础组件简介

一,Bean,Core,Context关系在Spring的各种组件中,Bean,Core,Context算是基础组件(ExpressionLanguage表达式支持, 这个主要就是用来支 ...

websphere + struts 2

问题描述在页面中使用strut2标签报错,比如<s:propertyvalue="sdfsaf"/>.这是怎么回事??而且对于strut2的请求action,webs ...

高手请教！！！！！！！！！！！

问题描述我安装的jdk在DOS环境下一直提示这个.javac不是内部或外部指令,也不是可运行的程序路径改了好几遍了,都是按书本上做的, 解决方案解决方案二:设置环境变量了吗?解决方案三:没有设置环 ...

加入环信聊天室时报错

问题描述 com.easemob.exceptions.EaseMobException: item-not-found(404) Conference room does not exist加入聊天 ...

js为隐藏域赋值,触发change事件无效

问题描述做评价的时候有分组,而且每组多个单选框,所以我把它放到一个隐藏域里面,但是通过js改变隐藏域的值,无法触发change事件,fireEvent方法,在firefox浏览器并不支持解决方案 ...

PHPDevShell V3.0.0-Stable发布开源的快速应用开发框架

PHPDevShell是一款开源(GNU/LGPL)的快速应用http://www.aliyun.com/zixun/aggregation/13435.html">开发框架,用于开发 ...

Droper 0.4.0发布 Symbian Dropbox客户端

Droper是一个http://www.aliyun.com/zixun/aggregation/17028.html">Symbian Dropbox的客户端,允许Dropbox用户 ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.027 s.