本系列文章分析Pig运行主线流程,目的是借鉴Pig Latin on Hadoop,探索(类)Pig Latin on Spark的可能性。
Pig概述
Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理、分析和挖掘大数据而发明的。从数据访问的角度来看,可以把YARN当成大数据的操作系统,那么Pig是各种不同类型的数据应用中不可或缺的一员。
尽管Pig的学习成本比Hive要高一些,但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据,那么用户使用过程式的Pig Lation,通过一连串的语句组合,能够充分控制数据分析的整个流程。
Pig整体流程
名词解释
名词 | 解释 | 备注 |
Pig Latin | Pig的数据流处理语言 | |
Loader/Store | Pig用于加载和存储数据 | |
Schema | 加载数据时指定的数据格式 | Pig的数据类型分为标量和复杂类型,标量基本和Java基本数据类型一致,复杂类型包括Tuple(元组)、Map和Bag(元组的无序集合) |
Relation | Pig操作的数据集合 | 即元组的集合,或者说就是一个Bag(更精确来说外部Bag,因为存在嵌套的内部Bag) |
Logical plan | 逻辑执行计划 | |
Physical plan | 物理执行计划 | |
Optimizer | 优化器 | 基于规则的逻辑优化器 |
DAG | Directed Acyclic Graph有向无环图 |
查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/database/storage/
时间: 2024-12-23 21:43:06