SQL去除重复删除重复数据(千万级数据量)

MYSQL里有五百万数据，但大多是重复的，真实的就180万，于是想怎样把这些重复的数据搞出来，在网上找了一圈，好多是用NOT IN这样的代码，这样效率很低，自己琢磨组合了一下，找到一个高效的处理方式，用这个方式，五百万数据，十来分钟就全部去除重复了，请各位参考。

第一步：从500万数据表data_content_152里提取出不重复的字段SFZHM对应的ID字段到TMP3表

代码如下	复制代码
create table tmp3 as select min(id) as col1 from data_content_152 group by SFZHM;

第二步：创建新表RES

CREATE TABLE `res` (

代码如下	复制代码
`id` int(11), `sfz` char(20) ) ENGINE=MyISAM;

第三步：把TMP3表ID对应到data_content_152里需要提取的数据添加到RES表的SFZ字段
INSERT INTO res (sfz) SELECT sfzhm FROM data_content_152,tmp3 where data_content_152.id=tmp3.col1
至此，就在MYSQL里实现了，给数据表data_content_152完全删除重复数据，把去重复后的数据导入到RES表。

时间： 2024-09-21 18:51:20

SQL去除重复删除重复数据(千万级数据量)的相关文章

SQL Server中删除重复数据的方法

数据库的使用过程中由于程序方面的问题有时候会碰到重复数据,重复数据导致了数据库部分设置不能正确设置-- 方法一declare @max integer,@id integerdeclare cur_rows cursor local for select 主字段,count(*) from 表名 group by 主字段 having count(*) > 1open cur_rowsfetch cur_rows into @id,@maxwhile @@fetch_status=0begins

SQL Server中删除重复数据的几个方法

数据库的使用过程中由于程序方面的问题有时候会碰到重复数据,重复数据导致了数据库部分设置不能正确设置-- 方法一 declare @max integer,@id integer declare cur_rows cursor local for select 主字段,count(*) from 表名 group by 主字段 having count(*) > 1 open cur_rows fetch cur_rows into @id,@max while @@fetch_status=

SQL 查询和删除重复字段数据的方法_MsSql

例如: id name value 1 a pp 2 a pp 3 b iii 4 b pp 5 b pp 6 c

SQL 查询和删除重复字段数据的方法

例如: id name value 1 a pp 2 a pp 3 b iii 4 b pp 5 b pp 6 c

你真的会玩SQL吗？删除重复数据且只保留一条

在网上看过一些解决方法我在此给出的方法适用于无唯一ID的情形表:TB_MACVideoAndPicture 字段只有2个:mac,content mac作为ID,正常情况下mac数据是唯一的,由于操作失误导致数据插入多次,导致出现多个mac,content重复数据,现在只保留一条,删除多余的大体思想是给重复数据一个自增ID,过滤出每组里面最小ID,删除原数据中所有重复数据再将最小ID插入 --查询出所有重复数据,并给定递增id SELECT IDENTITY( INT,1,1 ) AS i

SQL Server中删除重复数据的几个方法_MsSql

方法一复制代码代码如下: declare @max integer,@id integer declare cur_rows cursor local for select 主字段,count(*) from 表名 group by 主字段 having count(*) > 1 open cur_rows fetch cur_rows into @id,@max while @@fetch_status=0 begin select @max = @max -1 set rowcount

有用的SQL语句（删除重复记录，收缩日志）

删除重复记录,将TABLE_NAME中的不重复记录保存到#TABLE_NAME中 select distinct * into #table_name from table_name delete from table_name select * into table_name from #table_name drop table #table_name 与此相关的是"select into"选项,可以在数据库属性对话框中,勾起来此项,或者在Query Analyzer中执行 ex

有用的SQL语句（删除重复记录，收缩日志）_MsSql

删除重复记录,将TABLE_NAME中的不重复记录保存到#TABLE_NAME中 select distinct * into #table_name from table_name delete from table_name select * into table_name from #table_name drop table #table_name 与此相关的是"select into"选项,可以在数据库属性对话框中,勾起来此项,或者在Query Analyzer中执行 ex

SQL语句实现删除重复记录并只保留一条_数据库其它

复制代码代码如下: delete WeiBoTopics where Id in(select max(Id) from WeiBoTopics group by WeiBoId,Title having COUNT(*) > 1); SQL:删除重复数据,只保留一条用SQL语句,删除掉重复项只保留一条在几千条记录里,存在着些相同的记录,如何能用SQL语句,删除掉重复的呢 1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断复制代码代码如下: select * f

猜你喜欢

Photoshop高低频磨皮法修图原理和完整案例分享

本文讲解Photoshop高低频磨皮法修图原理,并分享一个完整的高低频磨皮修图案例. 第一,高低频磨皮法原理讲解 Photoshop高低频磨皮法是将图像的形状和颜色分解成高频.低频两个图层,单独调 ...

用Windows 2003创建匿名访问服务器

近年来,随着学校信息化的飞速发展,很多学校已经在互联网上建立了自己的网站,但对Web页的日常维护和管理都是通过远程服务器进行,有诸多不便,比如发现网页中错了一个字,就得先修改文件,再上网上传到远程服务 ...

ubuntu c/c++ IDE编程环境详细介绍

前言不断有网友将编译器 GCC 误认为 IDE(集成开发环境) 期望脱离命令行期望能在菜单中发现其身影期望其能有一个集编辑编译链接调试运行于一体的界面故本文给大家简单罗列一些 C/C++ 编程 ...

linux系统编程之文件与I/O（六） fcntl函数与文件锁

一.fcntl函数功能:操纵文件描述符,改变已打开的文件的属性 int fcntl(int fd, int cmd, ... /* arg */ ); cmd的取值可以如下: 复制文件描述符 F_D ...

PPT怎么制作一份简历

PPT中怎么制作简历?今天小编为大家详细介绍一下,来看看吧! 步骤首先,新建空白幻灯片之后,选择"插入"-"艺术字",选择自己喜欢的艺术字样式即可. 第二 ...

Win7系统开机出现0xcoooo428错误代码如何解决？

近期有网友反应在使用的win7系统在开机时出现了0xcoooo428错误代码提示,不能正常启动,小编遍查网站,总结了该问题的解决办法. 解决办法如下: 1.找到win7系统安装光盘,插入电脑后对电 ...

新浪微博什么是智能排序?

智能排序是根据用户的关注.标签和微博内容等相关信息,帮助用户梳理微博内容,对同类微博进行合并.对可能感兴趣的微博内容进行优先展示的排序的功能. 通过智能排序,能够帮你第一时间找到感兴趣的微博.合并微博 ...

跟主板相关的五则故障

主板"罢工"时,出现的故障现象,可能多种多样.此时,你该采取什么应对措施,来将主板故障快速而有效地排除呢?为此,特意为各位网友提供一些相关故障的快速应对措施. 为什么主板无法正 ...

使用pgadmin3-1.18.1(windows版本)连接greenplum的时候报错

客户端工具报错如下: 分析:本机IP未在greenplum控制台加入白名单解决:将本机外网IP在greenplum控制台中加入白名单

中国进店网运营相对平静，进入沉寂

[亿邦动力网讯]2月14日消息,与风风火火的B2C电商企业相比,近几年的B2B企业相对平静."去年没怎么运作,今年进店网已经并入其他业务,不与那些大的零售商.连锁超市竞争."中国进 ...

Create以后，如何可以自动直接跳转到创建问题的编辑界面？

问题描述工作流配置上是Create->Apply->Assin--Create以后,需要点击一个弹出的链接才能进入Apply界面.有没有办法不点击这个链接,直接进入Apply界面.因为处 ...

android 二维码制作，显示到UI，并保存SD卡，拿来就能用！！

转载请注明出处:王亟亟的大牛之路现在二维码已经渗透了我们的生活,各种扫码关注啊,扫码下载的,今天上一个根据输入内容生成二维码的功能. 包结构: 界面截图: 功能:输入网址–>生成图片–> ...

proxmox 命令行启动kvm qm 转移kvm

最近项目交接,发现几台proxcmox不能通过web控制台访问.因为项目代码以及部分实验数据存放其中,所以不敢贸然重新安装系统. 一.首先应对proxmox web控制台不能访问的问题,应该如何修复呢 ...

聚成80后刘松琳：12年4次创业终于成事

刘松琳是含着金钥匙出生的"80"后,但读书时代下雨天穿打补丁的裤子:他三次负气离家出走,发誓要白手起家,但最绝望时为找一块钱买泡面把住所翻个底朝天,想过自杀. 他创办并掌管着300 ...

Linux下oracle如何定时备份并删除几天前的数据

问题描述 Linux下oracle如何定时备份并删除几天前的数据在linux环境下的,oracle数据的备份删除,应该怎么操作解决方案写一个shell脚本就可以,这样可以把数据传输到远程 tod ...

App 表单，同免费版排名前100或前150 的相差无异

Fred Wilson 在<App Constellations>中的观点很有意思,提炼一下: 你可以将你日常用的非游戏类应用列张表,你会发现: 你所列出的 App 表单,同免费版排名前1 ...

黑莓创始人：iPhone用户将拥抱BBM应用

黑莓创始人迈克·拉扎里迪斯新浪科技讯北京时间5月22日上午消息,黑莓创始人迈克·拉扎里迪斯(Mike Lazaridis)周二表示,他相信iPhone和其他智能手机用户将拥抱黑莓即时通讯平台Blac ...

使用InstallShield打包VS程序

原文:使用InstallShield打包VS程序使用InstallShield打包VS程序 InstallShield是微软自己的一个打包工具,这个打包工具,有其优势也有其弊端 ...

如何解决基于c#windows窗体程序项目在不同版本vs上的兼容性问题

问题描述求大神指教:如何解决基于c#windows窗体程序项目在不同版本vs上的兼容性问题我在vs2010上编写的c#窗体程序放到vs2012上就会报项目不可用解决方案解决方案二:VS是向下兼容 ...

启动tomcat远程调试

启动catalina.sh时增加-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=8999 参数解释:http://blog. ...

花旗集团宣布万人大裁员计划个人银行首当其冲

迈克尔·考伯特(Michael Corbat)没有食言,接手首席执行官不足两个月,花旗确实做出了"一些改变". 美国时间12月6日,花旗集团宣布了全球11000名员工裁减计划,规模 ...

Mac系统下使用brew搭建PHP(LNMP/LAMP)开发环境_php技巧

Mac下搭建lamp开发环境很容易,有xampp和mamp现成的集成环境.但是集成环境对于经常需要自定义一些配置的开发者来说会非常麻烦,而且Mac本身自带apache和php,在brew的帮助下非常容 ...

ASP.NET/C#中如何调用动态链接库DLL_实用技巧

动态链接库(也称为DLL,即为"Dynamic Link Library"的缩写)是Microsoft Windows最重要的组成要素之一,打开Windows系统文件夹,你会发现文 ...

基于jQuery的上下无缝滚动应用(单行或多行)_jquery

Mr.Think的个人博客 @专注前端技术,热爱PHP,崇尚简单生活. 返回文章页:基于jQuery的上下无缝滚动应用(单行或多行) 单行应用简易的点击展开/关闭效果(原生JS版和JQ版) 2010 ...

撕下“红妆添香”的面纱

撕下"红妆添香"的面纱江苏徐州破获以淘宝网店铺为平台制售假冒化妆品犯罪团伙图为被查获的假冒化妆品. 杨伟张君本报记者蔡美萍 2011年12月13日,江苏徐州12365投 ...

Java千百问_06数据结构（011）_java中的数组是什么

1.什么是数组 Java提供了一个用于存储相同类型的元素的,固定大小的连续集合数据结构:数组. 数组是用于存储数据的集合,储存相同类型数据的集合. 与单个变量相比(如number0, number1 ...

标信通：精准定位大数据招标采购更便捷

今年以来,国家发改委.工业和信息化部.住房和城乡建设部.交通运输部.水利部.商务部联合印发<关于扎实开展国家电子招标投标试点工作的通知>,部署开展国家电子招标投标试点工作.通知要求在招投标 ...

《实施Cisco统一通信管理器（CIPT2）》一1.2 概述部署多站点环境时将会遇到的挑战

1.2 概述部署多站点环境时将会遇到的挑战实施Cisco统一通信管理器(CIPT2)在多站点部署环境中,设计者有可能要面临如下挑战. 质量问题:语音和视频的实时通信必须在包交换网络得到优先处理.然而 ...

北“智联”PK南“无忧” 10年后的战役怎么打？

智联招聘足足晚于前程无忧10年上市!与智联同时期成长起来的前程无忧早已于2004年在纳斯达克上市,而同为在线招聘行业的"前辈",智联多次IPO未能成功也颇显尴尬,这其中有诸多因素导 ...

改革开放30年中国管理批判性回顾

2008年,对中国人民来说,是十分重要的一年.我们将隆重纪念改革开放30周年. --胡锦涛(2008年新年贺词) 北京奥运的盛大召开,让更多的人得以近距离体验中国改革开放30年的发展奇迹. 这是中国人 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.