T-SQL技术收集——删除重复数据

原文:T-SQL技术收集——删除重复数据

在工作和面试中，经常出现如何查询或者删除重复数据的问题，如果有主键，那还好办一点，如果没有主键，那就有点麻烦。

当一个表上没有辅助键时，如果使用SSMS界面来删除，就会报错（注意，本人测试环境是2012，所以界面可能会有所不一样，但是对结果没有任何影响）：

因为在创建表后插入数据是没有做判断。但是在删除时，为了保证数据库的一致性，RDBMS还是会做判断从而拒绝执行这类操作。

说明：

要解决这种问题，除了在设计的过程中做好之外，还可以在数据没有重复数据的情况下，使用ALTER TABLE ADD Constraint语句来增加约束。

但是要删除现有的重复值，使用SSMS界面是无法实现的，就算能实现，当数据量到达一定程度，也是不现实的。此时只能使用T-SQL语句，搭配SET ROWCOUNT 1让数据的处理方式一次一行或这使用DELETE TOP (1)的方式删除，注意，括号是必须的。

SET ROWCOUNT { number | @number_var }：使 SQL Server 在返回指定的行数之后停止处理查询。如果需要取消限制，只需要使用SETROWCOUNT 0就可以。

下面是例子：

--使用set rowcount 3设定，查询所有数据

SET
ROWCOUNT 3

SELECT
* FROM
AdventureWorks.HumanResources.Department

--结果仅返回3行

结果如下：

--使用set rowcount 3，修改所有数据

UPDATE
AdventureWorks.HumanResources.Department

SET
name=name

(3 行受影响)

--回复原有设置

SET
ROWCOUNT 0

最后使用TOP (N)设定搭配INSERT/UPDATE /DELETE ，注意这部分只适合2005以后。

--使用TOP(3)设置，查询所有数据，注意是要有括号的

SELECT
TOP(3)
* FROM
AdventureWorks.HumanResources.Department

--结果返回3行

UPDATE
TOP(3)
AdventureWorks.HumanResources.Department
SET name
=name

(3 行受影响)

另外，SQLServer提供了一个系统函数@@ROWCOUNT来返回影响行数。以下是例子：

--使用@@rowcount系统函数返回影响行数

SELECT
EmployeeID,Title

FROM
AdventureWorks.HumanResources.Employee

WHERE
Title LIKE
'%Manager%'

SELECT
@@ROWCOUNT 'Result'

解决方法：

首先创建一个测试表和插入测试数据：

USE tempdb

GO

CREATE TABLE
MyT

(

    [SID]
INT,

    sname
VARCHAR(10),

    sdt
DATETIME

)

GO

--插入测试数据

INSERT INTO
MyT VALUES (1,'Lu','2012/01/01');

INSERT INTO
MyT VALUES (1,'Lu','2012/07/08');

INSERT INTO
MyT VALUES (1,'Lu','2012/04/03');

INSERT INTO
MyT VALUES (2,'Tian','2012/03/01');

INSERT INTO
MyT VALUES (2,'Tian','2012/05/09');

INSERT INTO
MyT VALUES (2,'Tian','2012/01/01');

INSERT INTO
MyT VALUES (3,'AD','2012/01/08');

INSERT INTO
MyT VALUES (3,'AD','2012/03/01');

INSERT INTO
MyT VALUES (4,'Sun','2012/02/01');

INSERT INTO
MyT VALUES (1,'Lu','2012/01/01');

INSERT INTO
MyT VALUES (1,'Lu','2012/07/08');

INSERT INTO
MyT VALUES (1,'Lu','2012/04/03');

INSERT INTO
MyT VALUES (2,'Tian','2012/03/01');

INSERT INTO
MyT VALUES (2,'Tian','2012/05/09');

INSERT INTO
MyT VALUES (2,'Tian','2012/01/01');

INSERT INTO
MyT VALUES (3,'AD','2012/01/08');

INSERT INTO
MyT VALUES (3,'AD','2012/03/01');

INSERT INTO
MyT VALUES (4,'Sun','2012/02/01');

第一种方法：

使用SET ROWCOUNT 1方法来删除重复数据：

需要搭配WHILE 1=1无限循环，搭配BREAK作为终止。针对找出来的重复数据，使用GROUP BY 和HAVING COUNT(1)>1作为筛选条件，可以避免所有数据被删除。

SET ROWCOUNT 1

WHILE 1=1

BEGIN

    DELETE
FROM MyT

    WHERE
[sid] IN

    (

        SELECT
[sid] FROM MyT

        GROUP
BY [sid],sname

        HAVING
COUNT(1)>1

    )

    IF
@@ROWCOUNT=0

    BREAK

END

SET ROWCOUNT 0

--可以发现，重复的数据已经删除

SELECT *
FROM MyT

第二种方法：

使用DELETE TOP(N)方法，先把刚才插入测试数据的脚本再执行，可以多执行几次。DELETE TOP(1)可以用来替代SET ROWCOUNT 1：

WHILE 1=1

BEGIN

    DELETE
TOP(1)
FROM MyT

    WHERE
[sid] IN

    (

        SELECT
[sid] FROM MyT

        GROUP
BY [sid],sname

        HAVING
COUNT(1)>1

    )

    IF
@@ROWCOUNT=0

    BREAK

END

结果和上面的一样。

扩充：保留最近的一行数据：

有时候不仅仅要去掉重复数据，也要保证剩下的是最新的数据（日期最大），此时可以借助索引，使用索引排序，然后把日期最小的那些删掉，只保留日期最大的那一笔。

--建立复合索引，利用索引将数据以编号和日期升序排序

CREATE INDEX
IDX_DT ON
MyT([sid],sdt
ASC)

GO

--修改删除语句，搭配with index查询提示

WHILE 1=1

BEGIN

    DELETE
TOP(1)
FROM MyT

    WHERE
[sid] IN

    (

        SELECT
[sid] FROM MyT
WITH (INDEX(idx_dt))

        GROUP
BY [sid],sname

        HAVING
COUNT(1)
>1

    )

    IF
@@ROWCOUNT=0

    BREAK

END

查询结果：

SELECT *
FROM MyT

注意：

为了向后兼容，括号在 SELECT 语句中是可选的。

我们建议您始终对 SELECT 语句中的 TOP 使用括号，这样，就可以与在 INSERT、UPDATE、MERGE 和 DELETE 语句中需要使用括号保持一致（在这种情况下括号是必需的）。

（出自SQL SERVER 2012联机丛书）

时间： 2024-12-09 04:41:29

T-SQL技术收集——删除重复数据的相关文章

SQL Server中删除重复数据的方法

数据库的使用过程中由于程序方面的问题有时候会碰到重复数据,重复数据导致了数据库部分设置不能正确设置-- 方法一declare @max integer,@id integerdeclare cur_rows cursor local for select 主字段,count(*) from 表名 group by 主字段 having count(*) > 1open cur_rowsfetch cur_rows into @id,@maxwhile @@fetch_status=0begins

SQL Server中删除重复数据的几个方法

数据库的使用过程中由于程序方面的问题有时候会碰到重复数据,重复数据导致了数据库部分设置不能正确设置-- 方法一 declare @max integer,@id integer declare cur_rows cursor local for select 主字段,count(*) from 表名 group by 主字段 having count(*) > 1 open cur_rows fetch cur_rows into @id,@max while @@fetch_status=

你真的会玩SQL吗？删除重复数据且只保留一条

在网上看过一些解决方法我在此给出的方法适用于无唯一ID的情形表:TB_MACVideoAndPicture 字段只有2个:mac,content mac作为ID,正常情况下mac数据是唯一的,由于操作失误导致数据插入多次,导致出现多个mac,content重复数据,现在只保留一条,删除多余的大体思想是给重复数据一个自增ID,过滤出每组里面最小ID,删除原数据中所有重复数据再将最小ID插入 --查询出所有重复数据,并给定递增id SELECT IDENTITY( INT,1,1 ) AS i

SQL Server中删除重复数据的几个方法_MsSql

方法一复制代码代码如下: declare @max integer,@id integer declare cur_rows cursor local for select 主字段,count(*) from 表名 group by 主字段 having count(*) > 1 open cur_rows fetch cur_rows into @id,@max while @@fetch_status=0 begin select @max = @max -1 set rowcount

sql 删除重复数据

sql 删除重复数据本文章提供一款mysql删除重复数据,就是数据表中存在二条以上的重复数据,删除编号最小的一条信息. delete `borough_name` as a from fke_borough as a, ( select *,min(id) from fke_borough group by `borough_name` having count(1) > 1 ) as b where a.`borough_name` = b.`borough_name` and a.id

SQL删除重复数据方法

原文:SQL删除重复数据方法例如: id name value 1 a pp 2 a pp 3 b iii 4 b pp 5 b pp 6

sql删除重复数据的详细方法_MsSql

一. 删除完全重复的记录完全重复的数据,通常是由于没有设置主键/唯一键约束导致的.测试数据: 复制代码代码如下: if OBJECT_ID('duplicate_all') is not nulldrop table duplicate_all GO create table duplicate_all ( c1 int, c2 int, c3 varchar(100) ) GO insert into duplicate_all select 1,100,'aaa' union allse

删除重复数据sql语句

删除重复数据sql语句方法一假设有重复的字段为name,address,要求得到这两个字段唯一的结果集 select identity(int,1,1) as autoid, * into #tmp from tablename select min(autoid) as autoid into #tmp2 from #tmp group by name,autoid select * from #tmp where autoid in(select autoid from #tmp2) 方

SQL去除重复删除重复数据(千万级数据量)

MYSQL里有五百万数据,但大多是重复的,真实的就180万,于是想怎样把这些重复的数据搞出来,在网上找了一圈,好多是用NOT IN这样的代码,这样效率很低,自己琢磨组合了一下,找到一个高效的处理方式,用这个方式,五百万数据,十来分钟就全部去除重复了,请各位参考. 第一步:从500万数据表data_content_152里提取出不重复的字段SFZHM对应的ID字段到TMP3表代码如下复制代码 create table tmp3 as select min(id) as col1 from d