Hive中的排序语法

ORDER BY

hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。

与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。

hive> set hive.mapred.mode=strict;
hive> select * from test order by id;
FAILED: SemanticException 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'

例子：

hive> set hive.mapred.mode=unstrict;
hive> select * from test order BY id ;
MapReduce Jobs Launched:
Job 0: Map: 1  Reduce: 1   Cumulative CPU: 1.88 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 880 msec
OK
1	a
1	a
2	b
2	b
3	c
3	c
4	d
4	d
Time taken: 24.609 seconds, Fetched: 8 row(s)

从上面的日志可以看到：启动了一个reduce进行全局排序。

SORT BY

SORT BY不是全局排序，其在数据进入reducer前完成排序，因此在有多个reduce任务情况下，SORT BY只能保证每个reduce的输出有序，而不能保证全局有序。

注意：SORT BY 不受 hive.mapred.mode 参数的影响

你可以通过设置mapred.reduce.tasks的值来控制reduce的数，然后对reduce输出的结果做二次排序。

例子：

hive> set mapred.reduce.tasks=3;
hive> select * from test sort BY id ;
MapReduce Jobs Launched:
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.48 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 480 msec
OK
1	a
2	b
3	c
4	d
2	b
3	c
4	d
1	a
Time taken: 29.574 seconds, Fetched: 8 row(s)

从上面的日志可以看到：启动了三个reduce分别排序，最后的结果不是有序的。

DISTRIBUTE BY with SORT BY

DISTRIBUTE BY能够控制map的输出在reduce中如何划分。其可以按照指定的字段对数据进行划分到不同的输出reduce/文件中。

DISTRIBUTE BY和GROUP BY有点类似，DISTRIBUTE BY控制reduce如何处理数据，而SORT BY控制reduce中的数据如何排序。

注意：hive要求DISTRIBUTE BY语句出现在SORT BY语句之前。

例子：

hive> select * from test distribute BY id sort by id asc;
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.24 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 240 msec
OK
3	c
3	c
1	a
1	a
4	d
4	d
2	b
2	b
Time taken: 29.89 seconds, Fetched: 8 row(s)

从上面的日志可以看到：启动了三个reduce分别排序，最后的结果不是有序的。

CLUSTER BY来代替

当DISTRIBUTE BY的字段和SORT BY的字段相同时，可以用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY。

注意：CLUSTER BY不能添加desc或者asc。

例子：

hive> select * from test cluster by id asc;
FAILED: ParseException line 1:33 extraneous input 'asc' expecting EOF near '<EOF>'

hive> select * from test cluster by id ;
MapReduce Jobs Launched:
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.58 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 580 msec
OK
3	c
3	c
1	a
1	a
4	d
4	d
2	b
2	b
Time taken: 30.646 seconds, Fetched: 8 row(s)

从上面的日志可以看到：启动了三个reduce分别排序，最后的结果不是有序的。

怎样让最后的结果是有序的呢？

可以这样做：

hive> select a.* from (select * from test cluster by id ) a order by a.id ;
MapReduce Jobs Launched:
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.5 sec   HDFS Read: 305 HDFS Write: 448 SUCCESS
Job 1: Map: 1  Reduce: 1   Cumulative CPU: 1.96 sec   HDFS Read: 1232 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 6 seconds 460 msec
OK
1	a
1	a
2	b
2	b
3	c
3	c
4	d
4	d
Time taken: 118.261 seconds, Fetched: 8 row(s)

总结

ORDER BY是全局排序，但在数据量大的情况下，花费时间会很长
SORT BY是将reduce的单个输出进行排序，不能保证全局有序
DISTRIBUTE BY可以按指定字段将数据划分到不同的reduce中
当DISTRIBUTE BY的字段和SORT BY的字段相同时，可以用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY。

时间： 2024-09-30 01:32:20

Hive中的排序语法的相关文章

hive中的排序和分组

order by order by 会对输入坐全局排序,因此只有一个reducer(多个reducer会无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set hive.mapred.mode =nonstrict;(default value/默认值) set hive.mapred.mode =strict; order by 和数据库中的order by 功能一致,按照某一项或几项的排序输出. 与数据库中order by 的区别在于在 hive.m

Hive中如何确定map数

Hive 是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sq l语句转换为 MapReduce 任务进行运行.当运行一个 hql 语句的时候,map 数是如何计算出来的呢?有哪些方法可以调整 map 数呢? 本文测试集群版本:cdh-4.3.0 . hive 默认的 input format 在 cdh-4.3.0 的 hive 中查看 hive.input.format 值(为什么是hive.input.format?

sql 中 case when 语法使用方法

没有,用case when 来代替就行了. 例如,下面的语句显示中文年月复制代码代码如下: select getdate() as 日期,case month(getdate()) when 11 then '十一' when 12 then '十二' else substring('一二三四五六七八九十', month(getdate()),1) end+'月' as 月份 CASE 可能是 SQL 中被误用最多的关键字之一.虽然你可能以前用过这个关键字来创建字段,但是它还具有更多用法.例

hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer).但是对于大量数据这将会消耗很长的时间去执行. 这里跟传统的sql还有一点区别:如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必

hive中partition如何使用

网上有篇关于hive的partition的使用讲解的比较好,转载了: 一.背景 1.在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作.有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念. 2.分区表指的是在创建表时指定的partition的分区空间. 3.如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构. 二.技术细节 1.一个表可以拥有一个或者多个分区,每个分区以文件夹的形

用中值排序基数法实现树状结构——让递归滚一边去

递归|排序用中值排序基数法实现树状结构在BBS的编写中,经常有人问怎样实现树状结构?一个比较不负责任的回答是:使用递归算法.当然,递归是一个可行的办法(二叉树的历遍也好象只能使用递归算法),但对于BBS来说,这样做势必要进行大量的Sql查询(虽然可以使用存储过程来做,但要从根本上加快速度,则应该考虑更快的算法).下面给出一个可行的彻底屏弃递的实现树状结构的算法. 下面给出另一种使用"使用中值排序基数法"实现树状结构:一.主要思想:增加一个排序基数字段ordernum

“中值排序基数法实现树状结构”的补充

排序 "中值排序基数法实现树状结构"的补充由于一时疏忽,造成了此法"对于int类型的基数字段,对原始贴的回复只能有31个:numeric类型的基数字段,对原始贴的回复也不能超过120个"(实际上是对于int型字段,原始贴的回复第32个以上的树状结构显示开始紊乱,对于numeric型的基数字段,原始贴的回复从121个以上树状结构显示开始紊乱--回复并不会出问题),这是由于计算机存储精度引起的. 我们可以将加贴的存储过程修改一下(加进前面加上**号的行)

使用多中值排序基数实现大型树状结构

排序使用多中值排序基数实现大型树状结构在"中值排序基数法实现树状结构"中,为了解决回复限制的问题,我们可以增加第二(三.四--)基数字段. 其实在一般的BBS中,使用一个基数已经足够,因为一个贴子的回复太多或深度太大的时候,无论你的树状结构做得多好,由于屏幕的限制(显示折行),显示总会乱,因此不如象在<补充>一文中,达到一定深度或个数时,后面的贴子采用平行显示的方法,不过那部分已经不再是树状结构了. 原理:在贴子显示的order by子句中,如果排序

Hive中如何查看数据来源文件和具体位置

通常用户在HIVE中用SELECT语句出来结果,无法确定结果是来自哪个文件或者具体位置信息,HIVE中考虑到了这点,在Virtual Column虚列中可以指定三个静态列: 1. INPUT__FILE__NAME map任务读入File的全路径 2. BLOCK__OFFSET__INSIDE__FILE 如果是RCFile或者是SequenceFile块压缩格式文件则显示Block file Offset,也就是当前快在文件的第一个字偏移量,如果是TextFil