数据库查询优化

原文:数据库查询优化(转载)

1         使用SET NOCOUNT ON 选项:

缺 省地,每次执行SQL语句时,一个消息会从服务端发给客户端以显示SQL语句影响的行数。这些信息对客户端来说很少有用。通过关闭这个缺省值,你能减少在 服务端和客户端的网络流量,帮助全面提升服务器和应用程序的性能。为了关闭存储过程级的这个特点,在每个存储过程的开头包含“SET NOCOUNT ON”语句。

2         正确使用UNION和UNION ALL:

    许 多人没完全理解UNION和UNION SELECT是怎样工作的,因此,结果浪费了大量不必要的SQLServer资源。当使用UNION时,它相当于在结果集上执行SELECT DISTINCT。换句话说,UNION将联合两个相类似的记录集,然后搜索重复的记录并排除。如果这是你的目的,那么使用UNION是正确的。但如果你 使用UNION联合的两个记录集没有重复记录,那么使用UNION会浪费资源,因为它要寻找重复记录,即使你确定它们不存在。

所以如果你知道你要联合的记录集里没有重复,那么你要使用UNION ALL,而不是UNION。UNION ALL联合记录集,但不搜索重复记录,这样减少SQLServer资源的使用,从而提升性能。

3         尽量不用SELECT * :

    绝 大多数情况下,不要用 * 来代替查询返回的字段列表,用 * 的好处是代码量少、就算是表结构或视图的列发生变化,编写的查询SQL语句也不用变,都返回所有的字段。但数据库服务器在解析时,如果碰到 *,则会先分析表的结构,然后把表的所有字段名再罗列出来。这就增加了分析的时间。

4         慎用SELECT DISTINCT:

    DISTINCT子句仅在特定功能的时候使用,即从记录集中排除重复记录的时候。这是因为DISTINCT子句先获取结果集然后去重,这样增加SQLServer有用资源的使用。当然,如果你需要去做,那就只有去做了。

当如果你知道SELECT语句将从不返回重复记录,那么使用DISTINCT语句对SQLServer资源不必要的浪费。

5         少用游标:

    任何一种游标都会降低SQLServer性能。有些情况不能避免,大多数情况可以避免。所以如果你的应用程序目前正在使用TSQL游标,看看这些代码是否能够重写以避免它们。如果你需要一行一行的执行操作,考虑下边这些选项中的一个或多个来代替游标的使用:

使用临时表

使用WHILE循环

使用派生表

使用相关子查询

使用CASE语句

使用多个查询

上面每一个都能取代游标并且执行更快。 如果你不能避免使用游标,至少试着提高它们的速度,找出加速游标的方法。

6         选择最有效率的表名顺序:

    SQLSERVER的 解析器按照从右到左的顺序处理FROM子句中的表名,因此FROM子句中写在最后的表(基础表driving table)将被最先处理,在FROM子句中包含多个表的情况下,必须选择记录条数最少的表作为基础表,当SQLSERVER处理多个表时,会运用排序及 合并的方式连接它们。首先,扫描第一个表(FROM子句中最后的那个表)并对记录进行排序;然后扫描第二个表(FROM子句中最后第二个表);最后将所有 从第二个表中检索出的记录与第一个表中合适记录进行合并。

例如: 表 TAB1有 16384 条记录,表 TAB2 有5条记录,选择TAB2作为基础表 (最好的方法):

select count(*) from TAB1 a, TAB2 b

选择TAB1作为基础表 (不佳的方法):

select count(*) from TAB2 a, TAB1 b

如果有3个以上的表连接查询,那就需要选择交叉表(intersection table)作为基础表,交叉表是指那个被其他表所引用的表。

7         使用表的别名(Alias):

当在SQL语句中连接多个表时,请使用表的别名并把别名前缀于每个Column上,这样可以减少解析的时间并减少那些由Column歧义引起的语法错误。

8         SARG你的WHERE条件:

    ARGE来 源于"Search Argument"(搜索参数)的首字母拼成的"SARG",它是指WHERE子句里,列和常量的比较。如果WHERE子句是sargable(可 SARG的),这意味着它能利用索引加速查询的完成。如果WHERE子句不是可SARG的,这意味着WHERE子句不能利用索引(或至少部分不能利用), 执行的是全表或索引扫描,这会引起查询的性能下降。

在WHERE子句里不可 SARG的搜索条件如"IS NULL", "<>", "!=", "!>", "!<", "NOT", "NOT EXISTS", "NOT IN", "NOT LIKE"和"LIKE '%500'",通常(但不总是)会阻止查询优化器使用索引执行搜索。另外在列上使用包括函数的表达式、两边都使用相同列的表达式、或和一个列(不是常 量)比较的表达式,都是不可SARG的。

并不是每一个不可SARG的WHERE子句都注定要全表扫描。如果WHERE子句包括两个可SARG和一个不可SARG的子句,那么至少可SARG的子句能使用索引(如果存在的话)帮助快速访问数据。

大多数情况下,如果表上有包 括查询里所有SELECT、JOIN、WHERE子句用到的列的覆盖索引,那么覆盖索引能够代替全表扫描去返回查询的数据,即使它有不可SARG的 WHERE子句。但记住覆盖索引尤其自身的缺陷,如此经常产生宽索引会增加读磁盘I/O。某些情况下,可以把不可SARG的WHERE子句重写成可 SARG的子句。例如:

WHERE SUBSTRING(firstname,1,1) = 'm'

可以写成:

WHERE firstname like 'm%'

这两个WHERE子句有相同的结果,但第一个是不可SARG的(因为使用了函数)将运行得慢些,而第二个是可SARG的,将运行得快些。

如果你不知道特定的WHERE子句是不是可SARG的,在查询分析器里检查查询执行计划。这样做,你能很快的知道查询是使用了索引还是全表扫描来返回的数据。仔细分析,许多不可SARG的查询能写成可SARG的查询。下面分几点讲解WHERE条件的SARG。

8.1       WHERE子句中的连接顺序

SQLSERVER采用自下而上的顺序解析WHERE子句,根据这个原理,表之间的连接必须写在其他WHERE条件之前,那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。例如:

(低效)

SELECT *  FROM EMP E

WHERE SAL > 50000

AND JOB = ‘MANAGER’

AND 25 < (SELECT COUNT(*) FROM EMP WHERE MGR=E.EMPNO)

 

(高效)

SELECT * FROM EMP E

WHERE 25 < (SELECT COUNT(*) FROM EMP WHERE MGR=E.EMPNO)

AND SAL > 50000

AND JOB = ‘MANAGER’

8.2       避免困难的正规表达式:

MATCHES和LIKE关键字支持通配符匹配,技术上叫正规表达式。但这种匹配特别耗费时间。例如:

SELECT * FROM customer WHERE zipcode LIKE "98_ _ _"

即使在zipcode字段上建立了索引,在这种情况下也还是采用顺序扫描的方式。如果把语句改为SELECT * FROM customer WHERE zipcode >="98000",在执行查询时就会利用索引来查询,显然会大大提高速度。

另外,还要避免非开始的子串。例如语句:

SELECT * FROM customer WHERE zipcode[2,3] >"80"

在where子句中采用了非开始子串,因而这个语句也不会使用索引。

8.3       避免对大型表行数据的顺序存取:

在嵌套查询中,对表的顺序存 取对查询效率可能产生致命的影响。比如采用顺序存取策略,一个嵌套3层的查询,如果每层都查询1000行,那么这个查询就要查询10亿行数据。避免这种情 况的主要方法就是对连接的列进行索引。例如,两个表:学生表(学号、姓名、年龄……)和选课表(学号、课程号、成绩)。如果两个表要做连接,就要在“学 号”这个连接字段上建立索引。

还可以使用并集来避免顺序存取。尽管在所有的检查列上都有索引,但某些形式的where子句强迫优化器使用顺序存取。下面的查询将强迫对orders表执行顺序操作:

SELECT * FROM orders WHERE (customer_num=104 AND order_num>1001) OR order_num=1008

虽然在customer_num和order_num上建有索引,但是在上面的语句中优化器还是使用顺序存取路径扫描整个表。因为这个语句要检索的是分离的行的集合,所以应该改为如下语句:

SELECT * FROM orders WHERE customer_num=104 AND order_num>1001

UNION ALL

SELECT * FROM orders WHERE order_num=1008

这样就能利用索引路径处理查询。

8.4       EXISTS和IN的使用:

    在 许多基于基础表的查询中,为了满足一个条件,往往需要对另一个表进行联接。   在这种情况下,使用EXISTS(或NOT EXISTS)通常将提高查询的效率。在子查询中,NOT IN子句将执行一个内部的排序和合并。无论在哪种情况下,NOT IN都是最低效的,因为它对子查询中的表执行了一个全表遍历。为了避免使用NOT IN,我们可以把它改写成外连接(Outer Joins)或NOT EXISTS。

8.5       避免在索引列上使用IS NULL和IS NOT NULL:

    避免在索引中使用任何可以为空的列,SQLSERVER将无法使用该索引。对于单列索引,如果列包含空值,索引中将不存在此记录;对于复合索引,如果每个列都为空,索引中同样不存在此记录。如果至少有一个列不为空,则记录存在于索引中。   

  如果唯一性索引建立在表的A列和B列上,并且表中存在一条记录的A,B值为(123,null),SQLSERVER将不接受下一条具有相同A,B值(123,null)的记录插入。   

  如果所有的索引列都为空,SQLSERVER将认为整个键值为空,而空不可能等 于空,因此你可以插入1000条具有相同键值的记录,当然它们都是空!因为空值不存在于索引列中,所以WHERE子句中对索引列进行空值比较将使 SQLSERVER停用该索引。下面的代码将会很低效(索引失效):

SELECT … FROM DEPARTMENT WHERE DEPT_CODE IS NOT NULL

8.6       避免在索引列上使用计算:

    WHERE子句中,如果索引列是函数的一部分,优化器将不使用索引而使用全表扫描。   例如下面的语句低效 :

SELECT … FROM DEPT WHERE SAL * 12 > 25000

    而下面的语句将是高效的:

SELECT … FROM DEPT WHERE SAL > 25000/12

请务必注意,查询中不要对索引列进行处理,如:TRIM,substring,convert等等操作。

8.7       用WHERE子句替换HAVING子句:

    避免使用HAVING子句,HAVING只会在检索出所有记录之后才对结果集进行过滤,这个处理需要排序、统计等操作。如果能通过WHERE子句限制记录的数目,那就能减少这方面的开销。

9         避免或简化排序:

应当简化或避免对大型表进行重复的排序。当能够利用索引自动以适当的次序产生输出时,优化器就避免了排序的步骤。以下是一些影响因素:

l         索引中不包括一个或几个待排序的列;

l         group by或order by子句中列的次序与索引的次序不一样;

l         排序的列来自不同的表。

为了避免不必要的排序,就要正确地增建索引,合理地合并数据库表(尽管有时可能影响表的规范化,但相对于效率的提高是值得的)。如果排序不可避免,那么应当试图简化它,如缩小排序的列的范围等。

10    临时表的使用:

    临 时表有很多特殊的用途,象用来替代游标,不过它们仍能引起性能问题,如果这个问题能消除,SQLServer将执行得更快。在永久表和临时表的数据行相同 的条件下,使用临时表没有永久表快。但有时还必须得使用临时表,如先从存储大量数据的永久表中提取符全条件的存放到临时表,然后在临时表上执行操作。如果 是直接在存储大量数据的永久表上执行操作(如:统计、循环等),其性能将大打折扣。所以,使不使用临时表,何时使用临时表,需要具体情况决定。

11    是否使用视图:

视图最大的用途是处理安全相 关的问题,而不是一些懒惰的开发人员用来存储经常使用的查询的方法。例如,如果你需要允许用户访问特定SQLServer的数据,那么你也许可以考虑为用 户(或组)创建一个视图,然后给用户访问视图而不是基表的权限。另一方面,在应用程序里,从视图选择数据没有好的理由,相反,绕过视图直接从需要的表里获 取数据。原因是许多视图(当然不是全部)返回比SELECT语句所需更多的数据,增加不必要的开销。

例如,假定有一个视图从两个 连接表里返回10列。你想要从视图里使用SELECT语句返回其中7列。实际上发生的情况是基于视图的查询先运行,返回数据,然后你的查询针对这些数据运 行。既然你仅需要7列,而不是视图返回的10列,更多不必要的数据被返回。浪费SQLServer的资源。

长久以来,大家在争论是查询视图速度快还是直接查询快,本人也不敢轻易下结论,因此作了多次试验,其结果是:基于视图查询,性能确实不会比直接写查询语句快,对于简单的查询,最多是在同一水平上。

当然,上面的测试是在没有为视图创建索引的情况下,SQLServer2000以上可以为视图创建索引,视图索引与表的索引在作用方式上非常相似。与表一样,视图可以有一个集簇索引(clustered index)和多个非集簇索引。创建视图索引后能够提高视图的性能。

如果视图不包含索引,则数据库中不保存视图返回的结果集。有的时候,我们可能要创建涉及大量记录或必须进行复杂计算的视图,比如要进行聚合分组处理或多重连接操作。如果每次引用这些视图的时候让sql server重新生成结果集,数据库开销将非常大。

12    让事务尽可能的短:

    保持TSQL事务尽可能的短。这会帮助减少锁(所有类型的锁)的数量,有助于全面提升SQLServer的性能。如果有经验,你也许要将长事务分成更小的事务组。

13    用存储过程代替直接写查询语句:

    存储过程为开发人员提供了很多好处,包括:

n         减少网络流量和响应时间,提升应用程序性能。例如,通过网络发送一个存储过程调用,而不是发送500行的TSQL将更快,资源使用更少。当每次执行SQL时,都会执行解析SQL语句、估算索引的利用率、绑定变量、读数据块等等工作。

n         存储过程执行计划能够重用,驻留在SQLServer内存的缓存里,减少服务器开销。

n         客 户端执行请求更有效率。例如,如果应用程序需要插入大量的二进制值到一个image数据列而不使用存储过程,它必须转化二进制为字符串(大小会增加一 倍),然后发送给SQLServer。当SQLServer接收到后,它必须把字符串值转回二进制格式。大量的浪费开销。存储过程能消除这个问题通过将应 用程序传给SQLServer的二进制格式作为参数,从而减少开销提升性能。

n         存储过程帮助提供代码重用。虽然这些不直接提升应用程序的性能,通过减少代码量和减少调试时间来提升开发人员的效率。

n         存储过程能封装逻辑。你能够改变存储过程代码而不影响客户端(假定你保持参数相同也不移除任何结果集的列)。这节约开发人员的时间。

n         存储过程为你的数据提供更好的安全性。如果你仅使用存储过程,你可以移除直接对表的SELECT、INSERT、UPDATE和DELETE权限从而强迫开发人员使用存储过程访问数据。这会节约DBA的时间。

n         作为首要的常规,所有的TSQL代码都应该通过存储过程调用。

13.1   存储过程名不要以 sp_ 开头:

    对这一准则,可能很多人会感觉纳闷,是的,我开始也纳闷过。如果创建的存储过程不是运行在Master数据库里,不要使用以sp_为前缀的名称。这个特别的 前缀是为系统存储过程保留的。尽管使用这个前缀不会禁止用户定义的存储过程的运行,但会稍微降低一些执行效率。这是因为SQLServer在执行以sp_ 为前缀的任何一个存储过程时缺省地首先试图在Master数据库里寻找,尽管那儿没有,这就浪费了寻找存储过程的时间。如果SQLServer在 Master数据库里不能找到存储过程,那么接下来会将存储过程的拥有者作为DBO去解析。如果存储过程在目前的数据库里,那么它会执行。为了避免不必要 的延迟,不要用前缀为sp_命名你的任何一个存储过程。

13.2   存储过程的拥有者要相同:

    为了最好的性能,同一个存储过程里调用的所有对象的拥有者都应该相同,DBO更适宜。如果不是那样,即对象名相同而拥有者不同,那么SQLServer必须 执行名称判断。当发生这样的情形时,SQLServer不能使用存储过程里在内存里的执行计划,相反,它必须重新编译存储过程,从而影响性能。当从应用程 序里调用存储过程时,使用分隔符名称来调用也是重要的。如:

EXEC dbo.myProcedure

代替:

        EXEC myProcedure

这样做有两个原因,其中一个 和性能有关。首先,使用完全有分隔符的名称有助于消除那些和你要运行的存储过程有潜在的混淆,有助于禁止BUG和潜在的问题。但更重要的是,这样做 SQLServer能更直接的访问存储过程执行计划,而不是轮流访问,从而加速了存储过程的性能。当然性能提升很小,但如果你的服务器每小时要运行成千上 万或更多的存储过程,这些节约的小段时间加起来就很可观了。

14    完整性使用下的约束和触发器:

    数据库里不要执行多余的完整性特点。例如,如果你正使用主键和外键约束来强迫引用完整性,则不要添加触发器来实现相同的功能而增加不必要的开销。同样既使用约束又使用默认值或既使用约束又使用规则也会执行多余的工作。

15    在SQL中捕捉异常:

这一条准则应该不能算是优化方面的,只是编写要求。现在SQLServer2005中,新增了BEGIN TRY…END TRY和 BEGIN CATCH…END CATCH二个成对语句,用于捕捉运行时出现的异常。在Oracle中,可用 BEGIN…EXCEPTION…END 语句捕捉异常。

把SQL代码块中加入捕捉异常的语句内,有二个好处:一是可以在SQL语句内部得到异常并作错误处理,如在错误代码块内返回自定义错误信息、ROLBACK等。这样可减少应用程序捕捉异常带来的资源开销;另外一个好处就是可以防止死锁情况的发生,当出现死锁时,SQLServer2005会抛出异常,我们就可捕捉到。

 

 

下面列出一些索引的概念,有助于设计表结构和编写SQL语句:

按照存储规则来分:

l         聚集索引:该索引中键值的逻辑顺序决定了表中相应行的物理顺序。因此一个表只能包含一个聚集索引,但该索引可以包含多个列(组合索引)。检索效率比普通索引高,但对数据新增/修改/删除的影响比较大。

l         非聚集索引:与聚集索引相对,不影响表中的数据存储顺序,检索效率比聚集索引低,对数据新增/修改/删除的影响很少。

按照维护与管理的角度来分:

l         唯一索引:惟一索引可以确保索引列不包含重复的值,可以用多个列,但是索引可以确保索引列中每个值组合都是唯一的。

l         主键索引:在数据库关系图中为表定义一个主键将自动创建主键索引,主键索引是唯一索引的特殊类型。主键索引要求主键中的每个值是唯一的。当在查询中使用主键索引时,它还允许快速访问数据。

l         普通索引:由关键字KEY或INDEX定义的索引,唯一任务是加快对数据的访问速度。因此,应该只为那些最经常出现在查询条件或排序条件中的数据列创建索引。只要有可能,就应该选择一个数据最整齐、最紧凑的数据列(如整数类型的数据列)来创建索引。允许有重复的列存在。

l         复合索引:如果在两上以上的列上创建的索引,则称为复合索引。

原文地址:http://www.cnblogs.com/Joshualang/archive/2009/05/14/1456563.html

时间: 2024-09-16 08:57:10

数据库查询优化的相关文章

解决方案-数据库查询优化问题求帮忙

问题描述 数据库查询优化问题求帮忙 查询结果集的时候还要查询本次有多少条数据 使用count的话就考虑sql太复杂,于是没办法使用size,效率又好低 有没遇到相似情况的帮忙提供个解决方案或者思路 解决方案 可写两条sql,一条用来返回数据集,另一条用来返回数据集的记录数 解决方案二: 把结果集保存到内存数据库中,然后再进行count,速度会非常快的 解决方案三: 等于是把查询出来的记录集放到内存中,然后再用其他编程方式来count,而不是直接用sql的 解决方案四: 两条SQL语句,先得到记录

MS SQL Server数据库查询优化及分页算法

server|分页|数据|数据库|算法|优化 探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的"红头文件"一表的部分数据结构:CREATE TABLE [dbo].[TGongwen] (    --TGongwen是红头文件表名    [Gid] [int] IDENTITY (1, 1) NOT NULL ,--本表的id号,也是主键    [title] [varchar] (80) COLLATE

mysql数据库查询优化:分析业务流程细节

上两周一直想办法提高查询速度,取得一点效果,解决了部分问题,记下来以便将来自己查看. 由于公司没有专门的DBA,我自己对mysql数据库也不是很熟悉,而且这个JAVA开发的网络审计系统的管理系统,是经过了N多人几年时间的修修改改,今天到我们手里,要改成能支持大流量情况的版本,所以对我们这个只有几个人的JAVA组来说,确实是个难题. 这个大流量的情况在以前的文章里也提到过,就是要支持每秒钟处理1G左右的网络数据包,HTTP协议的数据包最多,因此HTTP协议分析模块的流水日志表记录最大,据估算可能到

[数据库]数据库查询优化方案(处理上百万级记录如何提高处理查询速度)

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from t where num=0 3.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放

数据库查询优化——Mysql索引

版权声明:本文为博主原创文章,转载注明出处http://blog.csdn.net/u013142781 目录(?)[+] 工作一年了,也是第一次使用MySQL的索引.添加了索引之后的速度的提升,让我惊叹不已.隔壁的老员工看到我的大惊小怪,平淡地回了一句"那肯定啊". 对于任何DBMS,索引都是进行优化的最主要的因素.对于少量的数据,没有合适的索引影响不是很大,但是,当随着数据量的增加,性能会急剧下降. 小宝鸽试了一下,2.5万数据单表中,无索引:200ms-700ms,添加索引后10

数据库查询优化:嵌套查询

Table of Contents 1. 嵌套查询的分类和优化概述 2. Kim: On Optimizing an SQL-like Nested Query 2.1. 嵌套查询的分类 2.1.1. A 类 2.1.2. N 类 2.1.3. J 类 2.1.4. JA 类 2.1.5. D 类 2.2. 嵌套查询的优化 3. Kiessling, SQL-Like and Quel-like correlation queries with aggregates revisited 4. G

mysql数据库查询优化 mysql效率第1/3页_Mysql

提高MySQL 查询效率的三个技巧小结MySQL由于它本身的小巧和操作的高效, 在数据库应用中越来越多的被采用.我在开发一个P2P应用的时候曾经使用MySQL来保存P2P节点,由于P2P的应用中,结点数动辄上万个,而且节点变化频繁,因此一定要保持查询和插入的高效.以下是我在使用过程中做的提高效率的三个有效的尝试. l        使用statement进行绑定查询 使用statement可以提前构建查询语法树,在查询时不再需要构建语法树就直接查询.因此可以很好的提高查询的效率. 这个方法适合于

数据库查询优化(主从表的设计)_数据库其它

举一个例子,我现在有一些新闻信息,它包括这些字段:新闻ID,新闻Name,新闻ShortIntro,新闻Detail,新闻PublishTime.我现在要把它存放在数据库中,然后从数据库中将其取出来放在GridView中分页显示. 我现在就以一种我所见过的常见的思维方式来一步一步模拟这个实现过程. 第一步:建立新闻数据表. 在这一步,很多人都会直接建一张News表,里面包括了上面说的那些字段. 第二步:查询数据. 写一个方法,把News表中满足查询条件的数据取出来放在DataSet(DataTa

SQL Server与Oracle数据库在查询优化上的差异(二)

四.在SQL语句上的查询优化. 前台的应用程序要在数据库服务器上起作用,最终靠的都是应用程序中的一条条SQL语句.据不完全统 计,SQL语句消耗了数据库服务器80%左右的资源.所以,如何提高SQL语句的执行效率,是在数据库查询 优化中必须要考虑的一个问题. 但是,在实际工作中,许多程序员有个误区,他们认为数据库查询优化不是他们的事情,而应该是数 据库管理系统的任务,这是很多程序员的一个错误认识.他们错误地认为,他们所开发的应用程序的性能 ,跟他们所编写的SQL语句关系不大.一个好的查询语句往往可