Mysql group by语句的优化分析

默认情况下，MySQL排序所有GROUP BY col1, col2, ....，查询的方法如同在查询中指定ORDER BY col1, col2, ...。如果显式包括一个包含相同的列的ORDER BY子句，MySQL可以毫不减速地对它进行优化，尽管仍然进行排序。

如果查询包括GROUP BY但你想要避免排序结果的消耗，你可以指定ORDER BY NULL禁止排序。例如：

代码如下

复制代码

INSERT INTO foo

SELECT a, COUNT(*) FROM bar GROUP BY a ORDER BY NULL;

执行GROUP BY子句的最一般的方法：先扫描整个表，然后创建一个新的临时表，表中每个组的所有行应为连续的，最后使用该临时表来找到组并应用聚集函数(如果有聚集函数)。在某些情况中，MySQL通过访问索引就可以得到结果，而不用创建临时表。此类查询的 EXPLAIN 输出显示 Extra列的值为 Using index for group-by。

一。松散索引扫描

1.满足条件

查询针对一个表。

GROUP BY 使用索引的最左前缀。
只可以使用MIN()和MAX()聚集函数，并且它们均指向相同的列。
2.示例

表t1(c1,c2,c3,c4) 有一个索引 idx(c1，c2，c3)：

代码如下

复制代码

SELECT c1, c2 FROM t1 GROUP BY c1, c2;

SELECT DISTINCT c1, c2 FROM t1;

SELECT c1, MIN(c2) FROM t1 GROUP BY c1;

SELECT c1, c2 FROM t1 WHERE c1 < const GROUP BY c1, c2;

SELECT MAX(c3), MIN(c3), c1, c2 FROM t1 WHERE c2 > const GROUP BY c1, c2;

SELECT c2 FROM t1 WHERE c1 < const GROUP BY c1, c2;

SELECT c1, c2 FROM t1 WHERE c3 = const GROUP BY c1, c2；

不满足条件示例：

1. 除了MIN()或MAX()，还有其它累积函数，例如：

代码如下	复制代码
SELECT c1, SUM(c2) FROM t1 GROUP BY c1;

2. GROUP BY子句中的域不引用索引开头，例如：

代码如下	复制代码
SELECT c1,c2 FROM t1 GROUP BY c2, c3;

3. 查询引用了GROUP BY 部分后面的关键字的一部分，并且没有等于常量的等式，例如：

代码如下	复制代码
SELECT c1,c3 FROM t1 GROUP BY c1, c2；

二。紧凑索引扫描

如果不满足松散索引扫描条件，执行GROUP BY仍然可以不用创建临时表。如果WHERE子句中有范围条件，该方法只读取满足这些条件的关键字。

否则，进行索引扫描。该方法读取由WHERE子句定义的范围。

1. GROUP BY 中有一个漏洞，但已经由条件c2 = 'a'覆盖。

代码如下	复制代码
SELECT c1，c2，c3 FROM t1 WHERE c2 = 'a' GROUP BY c1，c3;

2. GROUP BY 不是满足最左前缀，但是有一个条件提供该元素的常量：

代码如下	复制代码
SELECT c1，c2，c3 FROM t1 WHERE c1 = 'a' GROUP BY c2，c3;

下面是什么情况下可以使用loose index scan的情况：

1 单一表查询

2 Group by中只有最左前缀列，没有其他列

3 只支持max和min聚合，而且，要聚合的列必须是group by中列所在的索引。

4 未被group by引用的索引其他部分必须是常量（这句我不是很理解）

5 不支持前缀索引。

假设t1(c1, c2, c3, c4)表有一个索引包括c1, c2, c3列，以下这些查询都是可以进行loose index scan的：

代码如下	复制代码
SELECT c1, c2 FROM t1 GROUP BY c1, c2; SELECT DISTINCT c1, c2 FROM t1; SELECT c1, MIN(c2) FROM t1 GROUP BY c1; SELECT c1, c2 FROM t1 WHERE c1 < const GROUP BY c1, c2; SELECT MAX(c3), MIN(c3), c1, c2 FROM t1 WHERE c2 > const GROUP BY c1, c2; SELECT c2 FROM t1 WHERE c1 < const GROUP BY c1, c2; SELECT c1, c2 FROM t1 WHERE c3 = const GROUP BY c1, c2;

这些都是抄的官方文档，正确性未完全验证。

下面这些SQL都没有办法使用loose index scan：

-- 因为聚合函数不是max或者min

代码如下	复制代码
SELECT c1, SUM(c2) FROM t1 GROUP BY c1;

-- 因为不符合最左前缀原则

代码如下	复制代码
SELECT c1, c2 FROM t1 GROUP BY c2, c3;

-- 查询涉及到了索引的一部分，紧跟group by中的列，但是没有常量等值语句，加上 WHERE c3 = const就好了

代码如下	复制代码
SELECT c1, c3 FROM t1 GROUP BY c1, c2;

另外一些聚合函数也是可以用到loose index scan的，比如：AVG(DISTINCT), SUM(DISTINCT), 和COUNT(DISTINCT)

以下这些语句也可以：

代码如下

复制代码

SELECT COUNT(DISTINCT c1), SUM(DISTINCT c1) FROM t1;

SELECT COUNT(DISTINCT c1, c2), COUNT(DISTINCT c2, c1) FROM t1;

很多语句都是从5.7的文档上摘抄下来的，正确性没有得到验证，虽说官方文档是权威，但是尽信书不如无书，以及纸上得来终觉浅，绝知此事须躬行，明天周末，我逐条测试，然后再更。

时间： 2025-01-19 05:07:21

Mysql group by语句的优化分析

Mysql group by语句的优化分析的相关文章

Mysql group by语句的优化

SQL语句的优化分析

MySQL高效分页与分页优化分析

mysql数据库分表性能优化分析

mysql数据库UPDATE语句一个bug分析

sql优化-mysql数据库sql语句优化，求大神！！！！

MySQL中distinct语句的基本原理及其与group by的比较_Mysql

MySQL Group Commit的优化

MySQL对limit查询语句的优化方法_Mysql