SQL Server-聚焦EXISTS AND IN性能分析(十六)

前言

前面我们学习了NOT EXISTS和NOT IN的比较,当然少不了EXISTS和IN的比较,所以本节我们来学习EXISTS和IN的比较,简短的内容,深入的理解,Always to review the basics。

初步探讨EXISTS和IN

我们创建表Table1并且取出前面创建BigTable表中的六条数据并插入其中,同时有一条数据重复,如下:

CREATE TABLE Table1 (IntCol UNIQUEIDENTIFIER)

Insert into Table1 (IntCol) Values ('b927ded5-c78b-4f53-80bf-f65a6ce86d87')
Insert into Table1 (IntCol) Values ('1be326ec-4b62-4feb-8421-d9edf2df28c8')
Insert into Table1 (IntCol) Values ('91c92337-24ba-4ebf-b2a3-14b987179ca6')
Insert into Table1 (IntCol) Values ('c03168f8-c1c7-4903-a8ee-9b4d9c0b6b1f')
Insert into Table1 (IntCol) Values ('c15ac08c-8d3d-4381-9c64-54854ddf15b7')
Insert into Table1 (IntCol) Values ('c15ac08c-8d3d-4381-9c64-54854ddf15b7')

此时我们来进行IN查询

USE TSQL2012
GO

SELECT SomeColumn
FROM BigTable
WHERE SomeColumn IN (SELECT IntCol FROM dbo.Table1)

 

我们在之前讲过若是内部联接中此时会返回六条数据,因为内部联接着重强调的是JOIN后面的表,若右表有多条数据匹配上,此时则会返回多条数据,但是在IN查询中,此时只会返回五条数据,为何如此呢?

此时用IN查询时即使在子查询中有重复数据时也不会担心出问题,它会自动进行过滤处理,因为在上图中利用了Semi Join半联接中右半联接或左半联接,也就是说只返回重复的数据中的一条。那么在EXISTS中情况又是怎样呢?

SELECT SomeColumn
FROM dbo.BigTable
WHERE EXISTS (SELECT IntCol FROM dbo.Table1)

此时因为没有WHERE条件,此时会返回外部查询表中所有数据,为了和上述IN查询实现等同的结果,我们需要加上WHERE条件

USE TSQL2012
GO

SELECT SomeColumn
FROM dbo.BigTable AS bt
WHERE EXISTS (SELECT IntCol FROM dbo.Table1 AS t WHERE bt.SomeColumn = t.IntCol)

而EXISTS相对于IN来说当需要比较两个或两个以上条件时,EXISTS能更好的实现而IN就没那么容易了,比如如下

SELECT SomeColumn
FROM dbo.BigTable AS bt
WHERE EXISTS (SELECT IntCol FROM dbo.Table1 AS t WHERE bt.SomeColumn = t.IntCol AND bt.OtherCol = t.OtherCol)

好了,到了这里我们开始讲讲二者性能问题

进一步探讨EXISTS和IN

我们直接利用前面的表来进行查询

SELECT ID, SomeColumn FROM BigTable
WHERE SomeColumn IN (SELECT LookupColumn FROM SmallerTable)

SELECT ID, SomeColumn FROM BigTable
WHERE EXISTS (SELECT LookupColumn FROM SmallerTable WHERE SmallerTable.LookupColumn = BigTable.SomeColumn)

二者都是利用默认的聚集索引扫描和哈希匹配中的右半联接且开销一致。接下来我们再来在二者查询列上创建索引

CREATE INDEX idx_BigTable_SomeColumn
ON BigTable (SomeColumn)
CREATE INDEX idx_SmallerTable_LookupColumn
ON SmallerTable (LookupColumn)

此时只是创建了索引后查询效率改善了,而且查询计划较之前只是哈希匹配中的左半联接替换成了合并联接中的内部联接,同时增加了流聚合。二者在开销上仍是一致的。在我所看其他教程中印象中一直都在说利用EXISTS代替IN,其EXISTS查询性能高于IN,而且事实却是开销一致,难道是100万数据太小,还是场景不够,还是语句不够复杂么。都在说看使用场景,那么到底是在什么场景下EXISTS比IN性能好呢,对此有更深入了解的你们,希望在评论中得到最实际的回答。而我认为觉得用EXISTS的话,只是EXISTS比IN更加灵活而已,而且不会出现意外的结果。下面我们继续往下看。

深入探讨EXISTS和IN

我们接下来看看用IN会出现什么意外的情况,我们首先创建测试表,并插入数据如下:

USE TSQL2012
GO

CREATE TABLE table1 (id INT, title VARCHAR(20), someIntCol INT)
GO
CREATE TABLE table12 (id INT, t1Id INT, someData VARCHAR(20))
GO

插入测试数据

INSERT INTO table1
SELECT 1, 'title 1', 5 UNION ALL
SELECT 2, 'title 2', 5 UNION ALL
SELECT 3, 'title 3', 5 UNION ALL
SELECT 4, 'title 4', 5 UNION ALL
SELECT null, 'title 5', 5 UNION ALL
SELECT null, 'title 6', 5

INSERT INTO table12
SELECT 1, 1, 'data 1' UNION ALL
SELECT 2, 1, 'data 2' UNION ALL
SELECT 3, 2, 'data 3' UNION ALL
SELECT 4, 3, 'data 4' UNION ALL
SELECT 5, 3, 'data 5' UNION ALL
SELECT 6, 3, 'data 6' UNION ALL
SELECT 7, 4, 'data 7' UNION ALL
SELECT 8, null, 'data 8' UNION ALL
SELECT 9, 6, 'data 9' UNION ALL
SELECT 10, 6, 'data 10' UNION ALL
SELECT 11, 8, 'data 11'

table1和table2中的数据分别如下:

探讨一(IN查询导致错误结果)

我们来对比EXISTS和IN查询,如下:

USE TSQL2012
GO

SELECT    t1.*
FROM    dbo.table1 AS t1
WHERE    t1.id IN (SELECT t1id FROM dbo.table12)

SELECT    t1.*
FROM    dbo.table1 AS t1
WHERE    exists (SELECT * FROM dbo.table12 AS t2 WHERE t1.id = t2.t1id)

此时二者返回的结果都是正确,接下来我们再来看其他情况,我们需要获取所有table1中数据没有在table2中的所有行。

USE TSQL2012
GO

SELECT    t1.*
FROM   dbo.table1 AS t1
WHERE    NOT EXISTS (SELECT * FROM dbo.table12 AS t2 WHERE t1.id = t2.t1id)

SELECT    t1.*
FROM   dbo.table1 as t1
WHERE    t1.id NOT IN (SELECT t1id FROM dbo.table12 as t2)

此时利用EXISTS得到了正确的结果,而通过IN查询未达到我们查询的目的,原因之前也有说过IN是基于三值逻辑,此时遇到NULL则会当做UNKNOWN来处理,所以最终得到的结果集是错误的。我们继续往下探讨。

探讨2(手写错误导致意外结果)

我们重新创建测试表并插入测试数据,如下:

USE TSQL2012
GO

CREATE TABLE TestTable1 (id1 int)
CREATE TABLE TestTable2 (id2 int)

INSERT TestTable1 VALUES(1),(2),(3)
INSERT TestTable2 VALUES(1),(2)

我们首先进行如下查询:

USE TSQL2012
GO

SELECT *
FROM TestTable1
WHERE id1 IN (SELECT id2 FROM TestTable2)

此时结果是正确的,假如在子查询中我们将列id2写成了id1,那么情况又会是怎样的呢?

SELECT *
FROM TestTable1
WHERE id1 IN (SELECT id1 FROM TestTable2)

不知你是否注意到什么没有,表面是没什么问题,我们接着运行下上述子查询

SELECT id1 FROM TestTable2

单独运行查询时,结果居然出错了,到这了我们再看下创建的表的列,id1是在Table1中而非在Table2中,所以导致了这种意外的错误,如果手写错误,结果数据也有,一般是不会觉察不到,通过使用IN查询就导致了意外的出现。而如下利用EXISTS时会直接报错,而不是得到错误的结果集

SELECT *
FROM t1
WHERE EXISTS (SELECT * FROM TestTable2 t2 WHERE t2.id2 = t1.id1 )

当然了也有人会说根本不会犯这样低级错误,但是谁能保证呢,SQL有智能提示更加容易犯这样的错误,因为直接在子查询就会有这样的列出现,但是该列在子查询表中根本不存在。所以基于探讨的两点,利用EXISTS更加保险。到此,关于EXISTS和IN的介绍算是结束,下此结论。

EXISTS和IN性能分析结论:我们推荐使用EXISTS,而不是IN,原因不是EXISTS性能优于IN,二者性能开销是一样的,而是利用EXISTS比IN更加灵活,更加安全、保险不会出现意想不到的结果。

总结

本节我们讲解了EXISTS和IN,关于其二者在性能方面还是有点疑惑,毕竟场景不够,当然最后还是推荐使用EXISTS,而原因不在于性能。我们下节讲解LEFT JOIN和NOT EXISTS,简短的内容,深入的理解,我们下节再会。

时间: 2024-08-01 09:31:47

SQL Server-聚焦EXISTS AND IN性能分析(十六)的相关文章

SQL Server-聚焦IN VS EXISTS VS JOIN性能分析(十九)

前言 本节我们开始讲讲这一系列性能比较的终极篇IN VS EXISTS VS JOIN的性能分析,前面系列有人一直在说场景不够,这里我们结合查询索引列.非索引列.查询小表.查询大表来综合分析,简短的内容,深入的理解,Always to review the basics. IN VS EXISTS VS JOIN性能分析 我们继续创建测试表,如下 CREATE SCHEMA [compare] CREATE TABLE t_outer ( id INT NOT NULL PRIMARY KEY,

通过 SQL Server 2005 索引视图提高性能

本文介绍了 SQL Server 2005 Enterprise Edition 中经过改进的索引视图功能.文中对索引视图进行了说明介绍,并讨论了可通过该功能改善性能的一些具体情况 一.索引视图 多年以来,Microsoft SQL Server 一直支持创建称为视图的虚拟表.通常,这些视图的主要作用是: • 提供一种安全机制,将用户限制到一个或多个基表的某个数据子集中. • 提供一种机制,允许开发人员自定义用户通过逻辑方式查看存储在基表中的数据的方式. 通过 SQL Server 2000,S

SQL Server FullText解决Like字句性能问题

场景引入 SQL Server利用HashKey计算列解决宽字段查询的性能问题 问题分析 菜鸟反思着,的确,需要完全匹配这个条件限制太严格了,SQL Server有没有一种方法来代替LIKE字句的功能而又可以大大提高查询效率的呢?因为,我们知道,LIKE左模糊匹配是可以使用到索引,而右模糊和完全模糊匹配是完全无法使用到索引的.G哥告诉菜鸟有解决方法,用FullText搜索啊.据说阿里云RDS SQL Server 2008和ECS 版RDS SQL 2012都支持SQL Server的FullT

SQL Server 2005可伸缩性和性能的计划(2)

文件系统存储 对于快照存储的其他选项是使用文件系统存储.这样的设置并不影响SQL压缩设置,因为这些数据存储在文件系统中. 文件系统快照存储也适合远程目录和向外扩展的报表服务部署.当文件系统存储可用时,快照数据被存留到报表服务器的本地文件系统中.这使得报表服务器能够避免到目录上走弯路,以支持会话和报表请求. 你可以控制文件系统的使用,通过改变在RSReportServer 中的WebServiceUseFileShareStorage的值.在config file上,打开文件系统,改变值如下所示:

SQL Server 2005可伸缩性和性能的计划(1)

本白皮书提供了关于不同报表服务实现架构中可伸缩性的相关内容.也提供了一些基于使用Microsoft SQL Server Reporting Services完成您自己的性能测试的指导方针.建议和提示. 简介 Microsoft SQL Server Reporting Services是一个报表平台,包括可扩展和可管理的中央管理报表服务器和可扩展的基于Web.桌面的报表交付.报表服务是微软综合商业智能平台的重要组成部分.对于许多组织,通过报表来交付信息是一个非常重要的日常商务环节.因此,报表性

用 SQL Server 2000 索引视图提高性能

server|视图|索引|性能 什么是索引视图? 许多年来,Microsoft SQL Server 一直都提供创建虚拟表(称为视图)的功能.在过去,这些视图主要有两种用途: 提供安全机制,将用户限制在一个或多个基表中的数据的某个子集. 提供一种机制,允许开发人员定制用户如何才能以逻辑方式查看存储在基表中的数据. SQL Server 2000 已经扩展了 SQL Server 视图的功能,以提高系统性能.它可以在一个视图上创建唯一的群集索引和非群集索引,可以改进最复杂查询的数据访问性能.在 S

SQL中利用DMV进行数据库性能分析

相信朋友对SQL Server性能调优相关的知识或多或少都有一些了解.虽然说现在NOSQL相关的技术非常的火热,但是RMDB(关系型数据库)与NOSQL是并存的,并且适用在各种的项目中.在一般的企业级开发中,主要还是RMDB占据主导地位.并且在互联网项目中,也不是摒弃了RMDB,例如MySQL就在很多的互联网应用中发挥着作用.所以,对数据库的调优是个值得深入学习的课题.本系列文章,主要讲述与SQL Server相关的调优知识,希望能够为朋友们带来一些帮助. 本篇提纲如下: 传统SQL Serve

SQL Server 2005可伸缩性和性能的计划(3)

ASP.NET 应用程序性能统计类 绝大多数关于ASP.NET应用程序性能统计类的信息,最近整理到了一个综合性的文档中叫做"改进.NET应用程序性能和扩展性".以下的表格描述了一些监控和优化ASP.NET应用程序性能的重要的统计类,包括报表服务. 性能对象 统计类 实例 描述 处理器 % 处理器时间 __Total % 处理器时间监控了Web服务器计算机的CPU利用情况.低CPU利用或者无法增加CPU利用,不考虑客户负荷,意味着在你的Web应用程序上有资源和锁之间的竞争. 进程 % 处

SQL Server 2008的I/O性能监控

I/O性能诊断 SQL Server性能非常依赖于I/O子系统.除非你的数据库适合物理内存,SQL  Server经常地会有数据库页面进出缓存池.这样就发生了实质的I/O流量.同样,在事务被明确的提交 前,日志记录需要写入磁盘.SQL  Server为各种目的可以使用tempdb,例如存储中间结果,排序,保 持行的版本或其他.所以好的I/O子系统对于SQL  Server性能非常重要. I/O的性能取决于以下 一些方面: 磁盘类型包括IDE.SATA.SCSI.SAS.Fibre Channel