SQL常见的可优化点

作者:方波

# ###########################################

# 索引相关

# ###########################################

– 查询(或更新,删除,可以转换为查询)没有用到索引

    这是最基础的步骤,需要对sql执行explain查看执行计划中是否用到了索引,需要重点关注type=ALL, key=NULL的字段。

– 在索引字段上施加函数

    to_char(gmt_created, ‘mmdd’) = ’0101′

    正确的写法

    gmt_created between to_date(“20090101″, “yyyymmdd”) and to_date(“20090102″, “yyyymmdd”)

– 在索引字段上使用全模糊

    member_id like ‘%alibab%’

    B树无法解决此类问题,可以考虑搜索引擎。

    但是member_id like ‘alibab%’可以用到索引。

    其实,对任何一个字段使用 like ‘%xxxx%’都是一种不规范的做法,需要能检查到这种错误用法。

– 多列字段的索引,没有用到前导索引

    索引:(memeber_id, group_id)

    where group_id=9234

    实际上,这个条件是没有办法用到上面的索引的。

    这是一个很常见的误用。要理解为什么不能用到这个索引,需要理解mysql如何构造多列索引的。

    索引是一棵B树,问题是,对于多列索引,mysql将索引字段按照索引建立的顺序进行拼装,组成一个新的字符串,这个字符串被用来做为构建B树的键。所以,在查询条件里,如果没有用到前导列,就没办法访问多列索引的B树。

    应该建立索引:(group_id, member_id)

– 访问到了索引之外的字段

    索引(member_id, subject)

    select subject from offer where member_id=234

    在member_id=234记录数很多的情况下,会优于

    select subject, gmt_created from offer where member_id=234

    原因是第二条sql会根据索引查找到的rowid访问表里的记录。第一条sql使用索引范围扫描就可以得到结果。

    如果某个sql执行次数很多,但是读取的字段没有被索引覆盖,那么,可能需要建立覆盖性索引。

– 计数count(id)有时比count(*)慢

    count(id) === count(1) where id is not null

    如果没有(id)索引,那么会用全表扫描,而count(*)会使用最优的索引

    进行用索引快速全扫描

    计数统一使用count(*)

– 正确使用stop机制

    判断member_id在offer表中是否存在记录:

    select count(*) from offer where member_id=234 limit 1

    优于

    select count(*) from offer where member_id=234

    原因是第一条sql会在得到第一条符合条件的记录后停止。

# ###########################################

# 高效分页

# ###########################################

– 高效的分页

    使用join技术,利用索引查找到符合条件的id,构造成临时表,用这个小

    的临时表于原表做join

    select *

    from

    (

        select t.*, rownum AS rn

        from

            (select * from blog.blog_article

            where domain_id=1

            and draft=0

            order by domain_id, draft, gmt_created desc) t

        where rownum >= 2

    ) a

    where a.rn <= 3

    应该改写成

    select blog_article.*

    from

    (

        select rid, rownum as rn

        from

        (

        select rowid as id  from blog.blog_article

        where domain_id=1

        and draft=0

        order by domain_id, draft, gmt_created desc

        ) t

        where rownum >= 2

    ) a, blog_article

    where a.rn >= 3

    and a.rid = blog_article.rowid

– order by没有用到索引

    有索引(a, b, )

    混合排序规则

    ORDER BY a ASC, b DESC, c DESC /* mixed sort direction */

    缺失了前导列

    WHERE g = const ORDER BY b, c /* a prefix is missing */

    缺失了中间列

    WHERE a = const ORDER BY c /* b is missing */

    使用了不在索引中的列进行排序

    WHERE a = const ORDER BY a, d /* d is not part of index */

# ###########################################

# 高效地利用primary key

# ###########################################

– 随机查询

    一个错误的做法:

    select *

    from title

    where kind_id=1

    order by rand()

    limit 1;

    create index k on title(kind_id);

    这个sql执行过程中需要全表扫描,并且将数据保存到临时表,这是一个非常耗时的操作。

    改进的做法,利用偏移量。

    select round(rand() * count(*))

    from titile

    where kind_id=1;

    select *

    from title

    where kind_id=1

    limit 1 offset $random;

    create index k on title(kind_id);

    相比上面的做法,这种写法能够利用到kind_id上的索引,减少了需要扫描的数据块。但是,如果offset非常大,那么需要扫描的数据块也非常大,极端情况是扫描索引k的所有数据块。

    最优的做法,利用主键进行范围查找

    select round(rand() * count(*))

    from title

    where kind_id=1;

    select *

    from title

    where kind_id = and id > $random

    limit 1;

    这个sql利用primary key进行范围查询,完全走索引,并且只读取一条记录,速度非常快。但是,这种用法的限制是primary key必须是int型,并且是连续自增长的。

# ###########################################

# 高效join

# ###########################################

– 小表驱动大表进行join

– 避免子查询

    子查询是一个影响性能的隐患。应该使用join改写sql。

# ###########################################

# 数据类型

# ###########################################

– 避免隐式转换

    CREATE TABLE `user` (

    `id` smallint(5) unsigned NOT NULL AUTO_INCREMENT,

    `account` char(11) NOT NULL COMMENT ”,

    `email` varchar(128),

    PRIMARY KEY (`id`),

    UNIQUE KEY `username` (`account`)

    ) ENGINE=InnoDB CHARSET=utf8;

    mysql>  explain select * from user where account=123 \G

    *************************** 1. row ***************************

            id: 1

    select_type: SIMPLE

            table: user

            type: ALL

    possible_keys: username

            key: NULL

        key_len: NULL

            ref: NULL

            rows: 2

            Extra: Using where

    1 row in set (0.00 sec)

    可以看到,account=123的条件并没有用到唯一索引`username`。mysql的server从storage engine中读取所有的记录,使用to_number()函数,将记录中的account转换成数字,被转换后的数字用来和参数比较。我们的测试表里有2条记录,而执行计划中rows的值也是2,并且type的值为ALL,这也说明索引`username`并没有被用到。

    mysql> explain select * from user where account=’123′ \G

    *************************** 1. row ***************************

            id: 1

    select_type: SIMPLE

            table: user

            type: const

    possible_keys: username

            key: username

        key_len: 33

            ref: const

            rows: 1

            Extra:

    1 row in set (0.00 sec)

    参数为字符串类型,我们可以看到索引`username`,被使用到了。

    这是一个经常被误用的做法。

– 主键不是自增列

    自增列的主键有多个好处:

    插入性能高。

    减小page的碎片。

    提供二级索引的性能,降低二级索引的空间,因为二级索引存储的是主键的值,并不是page中的行id。

时间: 2024-09-20 11:55:01

SQL常见的可优化点的相关文章

在SQL server的性能优化过程中的常见技巧

在SQL server 的http://www.aliyun.com/zixun/aggregation/14109.html">性能优化过程中,TSQL的语句优化是很重要的一环.当您使用各种手段找出系统最需要优化的语句后,应该如何对该语句进行优化呢?下面列出一些TSQL 语句优化的常见技巧. 1. 语句的执行计划分析 首先要对该语句的执行计划(execution plan)进行分析,找出语句运行慢的原因.比如说, <>在检查执行计划是否包含table scan /index

SQL Server数据库性能优化

设计1个应用系统似乎并不难,但是要想使系统达到最优化的性能并不是一件容易的事.在开发工具.数据库设计.应用程序的结构.查询设计.接口选择等方面有多种选择,这取决于特定的应用需求以及开发队伍的技能.本文以SQL Server为例,从后台数据库的角度讨论应用程序性能优化技巧,并且给出了一些有益的建议. 1 数据库设计 要在良好的SQL Server方案中实现最优的性能,最关键的是要有1个很好的数据库设计方案.在实际工作中,许多SQL Server方案往往是由于数据库设计得不好导致性能很差.所以,要实

SQL点滴22—性能优化没有那么神秘

原文:SQL点滴22-性能优化没有那么神秘 经常听说SQL Server最难的部分是性能优化,不禁让人感到优化这个工作很神秘,这种事情只有高手才能做.很早的时候我在网上看到一位高手写的博客,介绍了SQL优化的问题,从这些内容来看,优化并不都是一些很复杂的问题,掌握了基本的知识之后也可以尝试优化自己的SQL程序,甚至是其他相关的程序.优化是一些工作积累之后的经验总结和代码意识,只要平时注意积累,你也可以做优化的工作.这一篇随笔是转载,不过我强烈推荐给所有对数据库优化有兴趣的博友,读了这一篇之后下一

SET STATISTICS IO和SET STATISTICS TIME 在SQL Server查询性能优化中的作用

原文:SET STATISTICS IO和SET STATISTICS TIME 在SQL Server查询性能优化中的作用 近段时间以来,一直在探究SQL Server查询性能的问题,当然也漫无目的的查找了很多资料,也从网上的大神们的文章中学到了很多,在这里,向各位大神致敬.正是受大神们无私奉献精神的影响,所以小弟也作为回报,分享一下关于SET STATISTICS IO和SET STATISTICS TIME这两条T_SQL命令,在查询优化性能中的作用.       首先我想说明一下这篇文章

sql server-SQL Server 的优化谁能帮忙一哈谢谢啦

问题描述 SQL Server 的优化谁能帮忙一哈谢谢啦 select * from (select *ROW_NUMBER() over (order by InsertTime desc) as rowCOUNT(1) over() as dataCout from ((select ChaseOrderID55 as 'btName' COUNT(1)CountQS SUM(case when OrderState&1=1 then 1 else 0 end) CountSY SUM(ca

select-关于这个sql应该如何去优化,谁可以指点一下方向和给出一些参考资料

问题描述 关于这个sql应该如何去优化,谁可以指点一下方向和给出一些参考资料 SELECT *, <!-- 若过滤条件含有 供应商反馈交期,后面的语句采用INNER JOIN链接过滤 --> CAST(T.deliveryfeedback as char) as deliveryfeedback, CAST(T.pocreatedate as char) as pocreatedate CAST(prorder.deliveryfeedback as char) as deliveryfeed

Sql Server 查询性能优化之走出索引的误区分析_MsSql

据了解绝大多数开发人员对于索引的理解都是一知半解,局限于大多数日常工作没有机会.也什么没有必要去关心.了解索引,实在哪天某个查询太慢了找到查询条件建个索引就ok,哪天又有个查询慢了,再建立个索引就是,或者干脆把整个查询SQL直接发给DBA,让DBA直接帮忙优化了,所以造成的状况就是开发人员对于索引的理解.认识很局限,以下就把我个人对于索引的理解及浅薄认识和大家分享下,希望能解除一些大家的疑惑,一起走出索引的误区 误区1.在表上建立了索引,在查询时用到了索引的列,索引就一定会生效 首先明确下这样的

分析Sql Server查询性能优化之走出索引的误区

误区1.在表上建立了索引,在查询时用到了索引的列,索引就一定会生效 首先明确下这样的观点是错误的,SQL Server查询优化器是基于开销进行选择的优化器,通过一系列复杂判断来决定是否使用索引.使用什么类型索引.使用那个索引.SQL Server内部维护着索引列上的数据的统计,统计信息会随着索引列内容的变化而变化,索引的有效期完全取决于索引列上的统计信息,随着数据的变化关于索引的检索机制也随之变化.对于查询优化器来说始终保持查询开销最低始终是其的不二选择,如果一个非聚集索引的列上有大量的重复值,

一个SQL性能问题的优化探索(二)(r11笔记第38天)

继续前几天的一个案例一个SQL性能问题的优化探索(一)(r11笔记第33天) 如下的SQL语句存在索引字段CARD_NO,但是执行的时候却走了全表扫描,因为这是一个核心表,数据量很大,导致数据库负载很高. SQL_FULLTEXT ---------------------------------------------------------------------------------------------------- SELECT ID,CN,CARD_NO,TO_CHAR(CHAR