SQL Server优化篇:过滤条件设定提高索引效率

设定过滤条件提高索引效率

优秀的索引是SQL Server数据库性能的关键,然而高效的索引都是经过精心设计而成的。众所周知,主键是储存数据对象的唯一标识,如果数据表中没有聚簇索引,为了维护主键的唯一性,SQL Server数据库在默认情况下将为主键创建聚簇索引(Clustered index),除非用户特别指定将索引创建为非聚簇索引(Non-clustered index)。

毫无疑问,我们应当为频繁访问的数据创建聚簇索引,当然频繁访问的字段应当经过详细的分析和慎重选择,并且索引值应当尽可能短。提到创建索引,大家往往首先想到主键,但是主键的数据并不一定被频繁访问,而且很多时候为了保证主键的唯一性,主键的数值往往不是很短,比如我们经常会选择全局唯一标识符(GUID)类型作为主键的数据类型,唯一标识符的长度一般是16个字节,就长度而言,这种数据类型并不是最理想的聚簇索引选项,在这种情况下,可以为主键创建非聚簇索引,因为主键值在WHERE语句中用来查询特定的记录是非常高效的,创建非聚簇索引可以将查询的效率再上一个台阶。如果您选择了整型作为主键的数据类型,那就可以考虑将为主键生成聚簇索引。

SQL Server 2008为我们提供了另外一种索引——设定过滤条件索引(Filtered index),一个设定过滤条件索引是一个特殊的非聚簇索引,它是某些字段的特定子集。换句话说,设定过滤条件索引是基于一部分选定的字段生成的。比如说,在销售业绩数据表中,分公司所在城市的数据存储在City字段,如果我们创建一个非聚簇索引,那么所有的分公司所在的城市,都会被纳入索引当中。但是如果我们使用设定过滤条件索引,我们就可以只选择一部分城市被索引,比如北京,上海和广州,代码如下:

CREATE NONCLUSTERED INDEX FilteredCities ON Sales(City)  WHERE City IN ('北京','上海','广州')
与常规索引的区别在于,我们使用了WHERE语句来设定我们的过滤条件。假定公司的绝大部分收入都是来自于这三个城市的,那么我们的数据库查询会经常访问到在这三个城市产生的销售记录,在这种情况下,设定过滤条件索引会占据较少的磁盘空间,因为只有City字段的数值是北京,上海和广州的记录会被索引,这些记录只是整个销售数据表格中的一部分。

利用设定过滤条件索引可以提升数据库的性能,首先,只有被索引到记录发生变化的时候,才需要重建索引。比如,某一条在北京发生的销售记录需要调整,在更新操作之后,索引也要随之更新,这跟其他的索引是一样的。但如果发生在西安的销售记录发生了变化,无论添加或删除了多少条记录,我们之前建立的设定过滤条件索引都是不需要任何操作的,因为只有位于北京、上海和广州分公司的销售记录有影响到这个索引。设定过滤条件索引的另外一个优势是可以减少磁盘读写操作,比如我们要查询所有北京分公司的销售记录,那么使用刚才建立的设定过滤条件索引比常规的非聚簇索引要减少很多不必要的磁盘操作。

为了验证设定过滤条件索引所带来的性能优势,我们进行了对比测试。

首先,我们在VirtualBox虚拟机里安装Windows Server 2008 R2与SQL Server 2008 R2中文版,顺便说一下,我们安装的都是可以试用180天的试用版,在微软官方网站可以直接下载,而且现在试用版也不需要申请序列号了,在安装过程中可以直接选择安装180天试用,就可以直接安装,这位实验和学习带来了不少便利。

我们在数据库中创建了一个500万条记录的销售数据表,当然,销售金额都是随机产生的,而city字段,我们随机产生1到9这9个不同的数字,然后再根据需要将它们在替换为不同的城市,在这个实验中,我们把北京、上海和广州的销售记录总比例设定为67%。

接下来,我们将虚拟机进行完整的复制,这样就可以得到两套完全一致的操作系统和数据库,数据库中已经包含了我们刚刚创建的数据表,相关过程可以参考VirtualBox的技术文档。复制整个虚拟机的目的在于确保硬件和操作系统对数据库性能的影响最小,以便于我们将注意力集中在不同索引方式下,数据库性能的表现。

下一步,我们在第一个虚拟机中创建city字段的完整的非聚簇索引,代码如下:

CREATE NONCLUSTERED INDEX FilteredCities ON Sales(City)
在第二个虚拟机中,我们创建设定过滤条件索引,代码如下

CREATE NONCLUSTERED INDEX FilteredCities ON Sales(City)  WHERE City IN ('北京','上海','广州')

然后我们在两个虚拟机的数据库中来计算北京、上海和广州这三个城市的销售金额总和,代码如下

SELECT SUM(Value) FROM Sales  WHERE City = '北京' or City = '上海' or City = '广州'
在使用完整的非聚簇索引的情况下,我们花费了27秒,而使用设定过滤条件索引的情况下,我们只需要14秒就得到了计算结果,可见非聚簇索引在大规模数据计算的情况下,对性能的提升还是非常可观的,我们截取的屏幕如下,供大家参考:

在选择过滤条件的时候,我们需要考虑哪些数据会随着时间的推移而经常变化,比如,新增加的记录是添加到索引的中间还是末尾?当记录删除的时候,索引值是否需要随之删除?这些问题的答案都会影响我们对索引的设计。

在这里,我们需要用到填充因子(Fill Factor),填充因子是一个以百分比表示的数值,在重建索引的时候,填充因子的值决定了每个页面上要填充数据的空间百分比,以便保留一些剩余空间作为以后扩展索引的可用空间,以下代码演示了如何将填充因子设定为80,只有在高级选项打开的情况下才能设定填充因子:

Use DatabseName;  GO  sp_configure 'show advanced options', 1;  GO  RECONFIGURE;  GO  sp_configure 'fill factor', 80;  GO
如果填充因子的值是100,那么索引页就被会全部填充。我们一般考虑将填充因子设定为50到80中间的数值来保证添加新值的时候,不会发生页拆分。如果经常需要在索引末尾添加字段值的话,可以考虑将填充因子设定为90到100之间的值。最理想的状态是同时保证最少次数的的页拆分和索引重建

时间: 2024-10-25 20:19:48

SQL Server优化篇:过滤条件设定提高索引效率的相关文章

八大案例,带你参透SQL Server优化

在本文中,石沫针对用户遇到的各种实际问题,从实例层次到架构,通过8个SQL Server优化案例,分享了如何用最简单快捷的方式解决用户使用SQL Server数据库过程中的典型问题,使SQL Server能够稳定地提供持续服务. 以下是整理内容. 瓶颈诊断 工欲善其事,必先利其器.常见的分析性能问题的工具有三种:诊断硬件资源,等待类型,性能语句. 硬件资源通常有四个方面判断: CPU监控,性能计数器主要包括%Processor Time.Processor Queue Length.Batch

SQL Server 优化---为什么索引视图(物化视图)需要with(noexpand)强制查询提示

原文:SQL Server 优化---为什么索引视图(物化视图)需要with(noexpand)强制查询提示   本文出处:http://www.cnblogs.com/wy123/p/6694933.html    第一次通过索引视图优化SQL语句,以及遇到的一些问题,记录一下.   语句分析 最近开发递交过来一个查询统计的SQL,说是性能有问题,原本执行需要4-5秒钟,这个业务本身对性能要求又比较critical,期望是在1s之内在用尽各种办法之后(执行计划,统计信息,索引,改写SQL,临时

Sql Server优化之索引提示----我们为什么需要查询提示,Sql Server默认情况下优化策略选择的不足

原文:Sql Server优化之索引提示----我们为什么需要查询提示,Sql Server默认情况下优化策略选择的不足 环境: Sql Server2012 SP3企业版,Windows Server2008 标准版   问题由来: 最近在做DB优化的时候,发现一个存储过程有非常严重的性能问题, 由于整个SP整体逻辑是一个多表关联的复杂的查询,整体结构比较复杂的,通过的分析和尝试, 最后发现问题出在其中一个大表的查询上实现方式上, 因为这个大表上的意外的执行方式,导致其他表无法被驱动,其他表也

SQL Server优化器特性-隐式谓词

原文:SQL Server优化器特性-隐式谓词 我们都知道,一条SQL语句提交给优化器会产生相应的执行计划然后执行输出结果,但他的执行计划是如何产生的呢?这可能是关系型数据库最复杂的部分了.这里我为大家介绍一个有关SQL Server优化器的特性-隐式谓词,并简单介绍在此特性下如何根据场景控制优化器的行为.    在这里我通过一个简单的实例来给大家说明下. code CREATE TABLE T1 (A INT, B INT) CREATE TABLE T2 (A INT, B INT) set

SQL Server 2000之日志传送功能 - 设定(1)

server SQL Server 2000之日志传送功能 - 设定(1)       日志传送功能可自动复制数据库的交易日志文件,并回存到备援服务器 (standby server) 的另外一个数据库.因此可大幅提高SQL Server数据库之可用性.因为备援数据库完整地接收来源数据库的异动情况,所以它就是一份来源数据库的复本 - 差别仅在于资料复制与加载过程所产生的时间差.然而,当主要服务器停摆时,您就可以将备援服务器更改为新的主要服务器.如果原来的主要服务器可重新上线使用,那么您可以将其设

SQL Server 2000之日志传送功能-设定

   日志传送功能可自动复制数据库的交易日志文件,并回存到备援服务器 (standby server) 的另外一个数据库.因此可大幅提高SQL Server数据库之可用性.因为备援数据库完整地接收来源数据库的异动情况,所以它就是一份来源数据库的复本 - 差别仅在于资料复制与加载过程所产生的时间差.然而,当主要服务器停摆时,您就可以将备援服务器更改为新的主要服务器.如果原来的主要服务器可重新上线使用,那么您可以将其设定为新的备援服务器 - 事实上就是对调两台服务器的角色.        在SQL

[SQL Server优化]善用系统监视器,确定系统瓶颈

原文:[SQL Server优化]善用系统监视器,确定系统瓶颈 来自: http://hi.baidu.com/solorez/blog/item/f82038fa0e71b78d9e51468c.html 如果您运行的是 Microsoft Windows 服务器操作系统,则可以使用系统监视器图形工具来测量系统当前的性能参数.可以查看包括处理器.内存.缓存.线程和进程等数据.每个对象都有一个相关的的计数器集,用于测量设备使用情况.队列长 度.延时情况,另外还有吞吐量及内部拥塞指示器. 监视磁盘

SQL Server 优化器特性导致的内存授予相关BUG

原文:SQL Server 优化器特性导致的内存授予相关BUG 我们有时会遇到一些坑,要不填平,要不绕过.这里为大家介绍一个相关SQL Server优化器方面的特性导致内存授予的相关BUG,及相关解决方式,也顺便回答下邹建同学的相关疑问.   问题描述 一个简单的查询消耗了匪夷所思的内存.(邹建同学发现的) 原文链接 Code create table test_mem ( id int identity(1,1) primary key, itemid int not null, date d

SQL Server 2000之日志传送功能 - 设定(2)

server SQL Server 2000之日志传送功能 - 设定(2) 逐步设定 在Primary Server中,设定Standby Server及Log shipping1.开启Enterprise Manager,由工具中点选数据库维护计划 2.欢迎画面: 3.选取数据库:勾选Log shipping 4.更新数据最佳化信息:维持预设,不用选择! 5.数据库完整性检查:维持预设,不用选择! 6.指定数据库备份计划:一般不用选择! 7.指定交易记录文件备份磁盘目录:储存备份文件的目录指向