GROUP BY 的实现与优化

由于GROUP BY实际上也同样需要进行排序操作,而且与ORDER
BY相比,GROUP BY主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数,那么还需要一些聚合函数的计算。所以,在GROUP
BY的实现过程中,与ORDERBY一样也可以利用到索引。

在MySQL中,GROUP
BY的实现同样有多种(三种)方式,其中有两种方式会利用现有的索引信息来完成GROUP BY,另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析。

 

1.
使用松散(Loose)索引扫描实现GROUP
BY

何谓松散索引扫描实现GROUP BY呢?实际上就是当MySQL完全利用索引扫描来实现GROUP
BY的时候,并不需要扫描所有满足条件的索引键即可完成操作得出结果。

下面我们通过一个示例来描述松散索引扫描实现GROUP BY,在示例之前我们需要首先调整一下group_message表的索引,将gmt_create字段添加到group_id和user_id字段的索引中:

sky@localhost: example
08:49:45>
create index idx_gid_uid_gc

->on group_message(group_id,user_id,gmt_create);

QueryOK, rows affected (0.03
sec)

Records:96
Duplicates: 0Warnings:
0sky@localhost : example
09:07:30>drop
index idx_group_message_gid_uid

->on group_message;

QueryOK,
96 rows affected (0.02sec)

Records:96
Duplicates: 0Warnings:
0

然后再看如下Query的执行计划:

sky@localhost: example
09:26:15>
EXPLAIN

->SELECT user_id,max(gmt_create)

->FROM group_message

->WHERE group_id <
10

->GROUP BY group_id,user_id\G

 

***************************1.
row ***************************

id:1select_type:
SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:8ref:
NULL

rows:4Extra:
Using where; Using index forgroup-by

1row
in set (0.00
sec)

我们看到在执行计划的Extra信息中有信息显示“Usingindex
for group-by”,实际上这就是告诉我们,MySQLQueryOptimizer通过使用松散索引扫描来实现了我们所需要的GROUP
BY操作。

下面这张图片描绘了扫描过程的大概实现:要利用到松散索引扫描实现GROUP BY,需要至少满足以下几个条件:

GROUP BY
条件字段必须在同一个索引中最前面的连续位置;

在使用GROUP BY的同时,只能使用MAX和MIN这两个聚合函数;

如果引用到了该索引中GROUP BY条件之外的字段条件的时候,必须以常量形式存在;

 

为什么松散索引扫描的效率会很高?

因为在没有WHERE子句,也就是必须经过全索引扫描的时候,松散索引扫描需要读取的键值数量与分组的组数量一样多,也就是说比实际存在的键值数目要少很多。而在WHERE子句包含范围判断式或者等值表达式的时候,松散索引扫描查找满足范围条件的每个组的第1个关键字,并且再次读取尽可能最少数量的关键字。

 

2.
使用紧凑(Tight)索引扫描实现GROUP
BY

紧凑索引扫描实现GROUP BY和松散索引扫描的区别主要在于他需要在扫描索引的时候,读取所有满足条件的索引键,然后再根据读取恶的数据来完成GROUP
BY操作得到相应结果。

sky@localhost: example
08:55:14>
EXPLAIN

->SELECT max(gmt_create)

->FROM group_message

->WHERE group_id =
2

->GROUP BY user_id\G

 

***************************1.
row ***************************

id:1select_type:
SIMPLE

table:group_message

 

type:ref

possible_keys:idx_group_message_gid_uid,idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref:
const

rows:4Extra:
Using where; Using index

1row
in set (0.01
sec)

这时候的执行计划的Extra信息中已经没有“Usingindex
for group-by”了,但并不是说MySQL的GROUP
BY操作并不是通过索引完成的,只不过是需要访问WHERE条件所限定的所有索引键信息之后才能得出结果。这就是通过紧凑索引扫描来实现GROUP
BY的执行计划输出信息。

下面这张图片展示了大概的整个执行过程:

 

在MySQL中,MySQLQuery
Optimizer首先会选择尝试通过松散索引扫描来实现GROUP BY操作,当发现某些情况无法满足松散索引扫描实现GROUP
BY的要求之后,才会尝试通过紧凑索引扫描来实现。

当GROUP BY条件字段并不连续或者不是索引前缀部分的时候,MySQLQuery
Optimizer无法使用松散索引扫描,设置无法直接通过索引完成GROUP BY操作,因为缺失的索引键信息无法得到。但是,如果Query语句中存在一个常量值来引用缺失的索引键,则可以使用紧凑索引扫描完成GROUP
BY操作,因为常量填充了搜索关键字中的“差距”,可以形成完整的索引前缀。这些索引前缀可以用于索引查找。而如果需要排序GROUP
BY结果,并且能够形成索引前缀的搜索关键字,MySQL还可以避免额外的排序操作,因为使用有顺序的索引的前缀进行搜索已经按顺序检索到了所有关键字。3.
使用临时表实现GROUP BY

MySQL在进行GROUP
BY操作的时候要想利用所有,必须满足GROUP BY的字段必须同时存放于同一个索引中,且该索引是一个有序索引(如Hash索引就不能满足要求)。而且,并不只是如此,是否能够利用索引来实现GROUP
BY还与使用的聚合函数也有关系。

前面两种GROUP BY的实现方式都是在有可以利用的索引的时候使用的,当MySQLQuery
Optimizer无法找到合适的索引可以利用的时候,就不得不先读取需要的数据,然后通过临时表来完成GROUP BY操作。

sky@localhost: example
09:02:40>
EXPLAIN

->SELECT max(gmt_create)

->FROM group_message

->WHERE group_id >
1 and group_id <
10

->GROUP BY user_id\G

 

***************************1.
row ***************************

id:1select_type:
SIMPLE

table:group_message

type:range

possible_keys:idx_group_message_gid_uid,idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref:
NULL

rows:32Extra:
Using where; Using index; Using temporary; Usingfilesort

这次的执行计划非常明显的告诉我们MySQL通过索引找到了我们需要的数据,然后创建了临时表,又进行了排序操作,才得到我们需要的GROUP
BY结果。整个执行过程大概如下图所展示:

 

当MySQL Query Optimizer发现仅仅通过索引扫描并不能直接得到GROUP
BY的结果之后,他就不得不选择通过使用临时表然后再排序的方式来实现GROUP BY了。

在这样示例中即是这样的情况。group_id并不是一个常量条件,而是一个范围,而且GROUP
BY字段为user_id。所以MySQL无法根据索引的顺序来帮助GROUP
BY的实现,只能先通过索引范围扫描得到需要的数据,然后将数据存入临时表,然后再进行排序和分组操作来完成GROUP BY。

对于上面三种MySQL处理GROUP
BY的方式,我们可以针对性的得出如下两种优化思路:

1.尽可能让MySQL可以利用索引来完成GROUP
BY操作,当然最好是松散索引扫描的方式最佳。在系统允许的情况下,我们可以通过调整索引或者调整Query这两种方式来达到目的;

2.当无法使用索引完成GROUP
BY的时候,由于要使用到临时表且需要filesort,所以我们必须要有足够的sort_buffer_size来供MySQL排序的时候使用,而且尽量不要进行大结果集的GROUP
BY操作,因为如果超出系统设置的临时表大小的时候会出现将临时表数据copy到磁盘上面再进行操作,这时候的排序分组操作性能将是成数量级的下降;

 

至于如何利用好这两种思路,还需要大家在自己的实际应用场景中不断的尝试并测试效果,最终才能得到较佳的方案。此外,在优化GROUP
BY的时候还有一个小技巧可以让我们在有些无法利用到索引的情况下避免filesort操作,也就是在整个语句最后添加一个以null排序(ORDER
BYnull)的子句,大家可以尝试一下试试看会有什么效果。

时间: 2024-10-30 23:56:34

GROUP BY 的实现与优化的相关文章

GROUP BY语句的SQL优化

SQL语句: select t.type, count(t.id) as todo_count from mc_job_form t where t.state = '2' and t.customs_code = :a group by t.type 表结构: ID VARCHAR2(24) N   id IN_OUT_FLAG CHAR(1) Y PROVIDER_ID NUMBER Y APPLY_FORM_ID VARCHAR2(24) Y DECLARE_APPLY_ID VARCHA

帮助企业做好MaxCompute大数据平台成本优化的最佳实践

阿里云大数据计算服务MaxCompute通过灵活性.简单性和创新为您企业的业务环境带来了变革,但是您企业是否通过其实现了原本预期的节省成本的目标呢?本文中,我们将为广大读者诸君介绍优化您企业MaxCompute开销的一些关键性的策略. 自从MaxCompute于2010年进入市场以来,计算服务MaxCompute就已然永远地改变了整个IT世界了.尽管其价格优势已经领先业界了,但仍然有许多企业客户了解到,迁移到公共云服务并不总是能够帮助他们实现预期的成本节约的目标. 这并不意味着迁移到公共云服务是

MySQL性能优化总结

一.MySQL的主要适用场景 1.Web网站系统 2.日志记录系统 3.数据仓库系统 4.嵌入式系统 二.MySQL架构图:   三.MySQL存储引擎概述 1)MyISAM存储引擎 MyISAM存储引擎的表在数据库中,每一个表都被存放为三个以表名命名的物理文件.首先肯定会有任何存储引擎都不可缺少的存放表结构定义信息的.frm文件,另外还有.MYD和.MYI文件,分别存放了表的数据(.MYD)和索引数据(.MYI).每个表都有且仅有这样三个文件做为MyISAM存储类型的表的存储,也就是说不管这个

MySQL性能优化总结(转)

一.MySQL的主要适用场景 1.Web网站系统 2.日志记录系统 3.数据仓库系统 4.嵌入式系统 二.MySQL架构图:   三.MySQL存储引擎概述 1)MyISAM存储引擎 MyISAM存储引擎的表在数据库中,每一个表都被存放为三个以表名命名的物理文件.首先肯定会有任何存储引擎都不可缺少的存放表结构定义信息的.frm文件,另外还有.MYD和.MYI文件,分别存放了表的数据(.MYD)和索引数据(.MYI).每个表都有且仅有这样三个文件做为MyISAM存储类型的表的存储,也就是说不管这个

【大数据技巧】MaxCompute优化去重计算的性能

免费开通大数据服务:https://www.aliyun.com/product/odps 转载自dachuan 随着双十一数据量的暴增,之前用distinct去重可以简单处理的场景,现在消耗的时间成倍增长.如果用了multiple distinct,那就更要警惕,因为多重去重本身会带来数据量的成倍增长,很可能10分钟的任务,在双十一期间会跑上几个小时都没有结果. 这里介绍一个小技巧,其实在稳定性手册里面已经有过介绍,不过总感觉没有看懂.最近正好做了一次优化,于是在这里小结一下: 例如原来的代码

详解MySQL性能优化(一)_Mysql

一.MySQL的主要适用场景1.Web网站系统 2.日志记录系统 3.数据仓库系统 4.嵌入式系统 二.MySQL架构图:   三.MySQL存储引擎概述 1)MyISAM存储引擎 MyISAM存储引擎的表在数据库中,每一个表都被存放为三个以表名命名的物理文件.首先肯定会有任何存储引擎都不可缺少的存放表结构定义信息的.frm文件,另外还有.MYD和.MYI文件,分别存放了表的数据(.MYD)和索引数据(.MYI).每个表都有且仅有这样三个文件做为MyISAM存储类型的表的存储,也就是说不管这个表

《Oracle高性能SQL引擎剖析:SQL优化与调优机制详解》一3.2 基于代价的查询转换

3.2 基于代价的查询转换 在进行基于代价的查询转换时,转换器先确认查询是否满足转换条件.一旦满足,就会对各种可行的转换方式进行枚举,并对它们进行代价估算,找到代价最低的方式.由此可见,相对于启发式查询转换,基于代价的查询转换是一个相当消耗资源(CPU和内存)的过程.提示:Oracle中有一个优化器参数_OPTIMIZER_COST_BASED_TRANSFORMATION,用它来控制是否进行基于代价的查询转换,以及如何进行基于代价的查询转换,从而限制其对资源的消耗. 3.2.1 复杂视图合并

开发者应了解的一些SQL优化准则

下面介绍一些开发者在数据库操作中要注意的SQL编码准则.虽然本文不能覆盖所有的准则,但还是希望能给开发者带来些许帮助.下面就来看看在编码实践中哪些应该做,哪些不应该做. 1.  在长时间运行的查询和短查询中使用事务 如果预期有一个长时间运行的查询,并且有大量的数据输出时,开发者就应该在BEGIN TRAN 和END TRAN之间使用事务. 这样事务会在缓冲区缓存为独立事务,并会被分配特定内存,以此来提高处理速度. 2.  不要使用SELECT * 如果使用SELECT * 来选择表中的所有记录,

如何写出优秀的ASP应用 (2)

   部件      . 性能   . 伸缩性   . 分离商务逻辑和页面表现   . 被ASP或其他环境重用   . 事务处理   . 类型安全   . 存取操作系统特性   . 保护知识产权   . 在下列情况下使用Server.CreateObject:   . MTS事务处理   . 上下文安全性   . ASP内部部件   . OnStartPage.OnEndPage   . 使用<Object RunAt=server>延迟对象初始化   . 是否保存到Session或者Appl