前 言
Hive编程指南
本书是一本Hive的编程指南。Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据库)和Cassandra这样的数据库中的数据。
大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用SQL作为查询语言。Hive降低了将这些应用程序转移到Hadoop系统上的难度。凡是会使用SQL语言的开发人员都可以很轻松地学习并使用Hive。如果没有Hive,那么这些用户就必须学习新的语言和工具,然后才能应用到生产环境中。另外,相比其他工具,Hive更便于开发人员将基于SQL的应用程序转移到Hadoop中。如果没有Hive,那么开发者将面临一个艰巨的挑战,如何将他们的SQL应用程序移植到Hadoop上。
不过,Hive和其他基于SQL的环境还是有一些差异的。如今,可供Hive用户和Hadoop开发者使用的文档并不多,所以我们决定撰写这本书来填补这个缺口。我们将对Hive进行全面详实的介绍,主要适用于SQL专家,如数据库设计人员和业务分析师。我们也谈到了深入的技术细节,可以帮助Hadoop开发人员对Hive进行调优和定制。
目 录
第1章 基础知识
1.1 Hadoop和MapReduce综述
1.2 Hadoop生态系统中的Hive
1.3 Java和Hive:词频统计算法
1.4 后续事情
第2章 基础操作
第3章 数据类型和文件格式
第4章 HiveQL:数据定义
第5章 HiveQL:数据操作
第6章 HiveQL:查询
第7章 HiveQL:视图
第8章 HiveQL:索引
第9章 模式设计
第10章 调优
第11章 其他文件格式和压缩方法
第12章 开发
第13章 函数
第14章 Streaming
第15章 自定义Hive文件和记录格式
第16章 Hive的Thrift服务
第17章 存储处理程序和NoSQL
第18章 安全
第19章 锁
第20章 Hive和Oozie整合
第21章 Hive和亚马逊网络服务系统(AWS)
第22章 HCatalog
第23章 案例研究