Contents 目 录
译者序
前言
致谢
第1章 大数据技术一览
1.1 Hadoop
1.1.1 HDFS
1.1.2 MapReduce
1.1.3 Hive
1.2 数据序列化
1.2.1 Avro
1.2.2 Thrift
1.2.3 Protocol Buffers
1.2.4 SequenceFile
1.3 列存储
1.3.1 RCFile
1.3.2 ORC
1.3.3 Parquet
1.4 消息系统
1.4.1 Kafka
1.4.2 ZeroMQ
1.5 NoSQL
1.5.1 Cassandra
1.5.2 HBase
1.6 分布式SQL查询引擎
1.6.1 Impala
1.6.2 Presto
1.6.3 Apache Drill
1.7 总结15
第2章 Scala编程
2.1 函数式编程
2.1.1 函数
2.1.2 不可变数据结构
2.1.3 一切皆表达式
2.2 Scala基础
2.2.1 起步
2.2.2 基础类型
2.2.3 变量
2.2.4 函数
2.2.5 类
2.2.6 单例
2.2.7 样本类
2.2.8 模式匹配
2.2.9 操作符
2.2.10 特质
2.2.11 元组
2.2.12 Option类型
2.2.13 集合
2.3 一个单独的Scala应用程序
2.4 总结
第3章 Spark Core
3.1 概述
3.1.1 主要特点
3.1.2 理想的应用程序
3.2 总体架构
3.2.1 worker
3.2.2 集群管理员
3.2.3 驱动程序
3.2.4 执行者
3.2.5 任务
3.3 应用运行
3.3.1 术语
3.3.2 应用运行过程
3.4 数据源
3.5 API
3.5.1 SparkContext
3.5.2 RDD
3.5.3 创建RDD
3.5.4 RDD操作
3.5.5 保存RDD
3.6 惰性操作
3.7 缓存
3.7.1 RDD的缓存方法
3.7.2 RDD缓存是可容错的
3.7.3 缓存内存管理
3.8 Spark作业
3.9 共享变量
3.9.1 广播变量
3.9.2 累加器
3.10 总结