[MySQLHelp]答朋友问:5000W记录的Innodb表如何快速的去重复数据

朋友问: 5000万数据的一张表,怎么去重快,根据两个字段判断是否重复。回复之:把2个字段以及主键id select 出来建立一张临时表t1,t1建立好主键索引以及2个对比的字段联合索引。然后在临时表里面 比对重复的记录,把重复的记录录入第二张临时表t2,t2表结构和t1一模一样。然后根据你的业务来决定如何处理t2表里面的重复记录,用t2关联原来的5000W记录的表来进行处理,大概通常的是group by2个字段,取出主键id较大的值的记录删除掉。

时间: 2024-10-11 07:32:41

[MySQLHelp]答朋友问:5000W记录的Innodb表如何快速的去重复数据的相关文章

答读者问总结 & 微信群欢迎你

在<大学里最重要的七项学习>这篇广受在校学生欢迎的文章中,李开复老师说:就读大学时,你应当掌握七项学习,包括自修之道.基础知识.实践贯通.培养兴趣.积极主动.掌控时间.为人处世. 确实,在校时光是一个人一生中最美好的时光,在校园里面,大家不用为生计发愁.不用为世俗所惑,可以尽情在知识的海洋里攫取自己感兴趣的东西.如果四年时光能够规划并利用好,那么大学必将成为一个人事业发展的起点,在大学里面的所学必将让自己受益终身. 但是,"迷茫"充斥着整个校园,在这个自由的环境下,很多人失

答读者问(17):一个在读女硕士有关实习及如何进入企业的相关疑问

       最近,我收到一位研究生的邮件,内容如下:        学长你好!         我是一名现在在XXX读XXX的学生,我本科在国内一所211工科院校读通信工程专业. 在你博客中答读者问的栏目,有些对我很有启发,比如16号的女生如何进入IT行业一文,你指出了女士从事IT行业的一些方向. 现在我也有些疑惑,非常期待听听你的看法和建议.        因为本科读通信工程专业,接触一些通信方面的理论.        微积分.数学物理方法等理论方面学得很好,电磁场理论.电路分析.信号与系统

《MacTalk•人生元编程》一一2.2 独自在家续篇兼答读者问

2.2 独自在家续篇兼答读者问 很多人没事就抱怨北京的空气,但是懂得变化的人会知道,何时赞美,何时吐槽. 总结一下,北京的空气变化大概是这个样子: 在月黑霾浓的深夜,伸手只见五指,这时一个叫做"大风"的环保工作者出现了,经过一夜激情,第二天阳光明媚,天蓝云白,PM2.5指数50,朋友圈多了很多蓝白之物.你极目远眺,蓝天和大地的交界处有一层透明的薄雾.第二天,深蓝变浅蓝,天地间的白雾变为灰色,PM2.5指数70.第三天,浅蓝变灰白,天地间夹了一层薄薄的雾霭,PM2.5升到120左右.第四

夜里有行内的朋友问我今年双11的事

夜里有行内的朋友问我今年双11的事,后来东拉西扯扯到了小米,从头到尾聊了近1小时,其中聊了很多我对小米的看法,聊的挺HIGH也算干货,心血来潮以问答的形式记录下来与大家分享,请大家双11多惠顾NOP.以下L是在下,Y是朋友. Y:今年双11最看好哪家夺冠?男装品牌还是女装品牌?传统品牌还是网络品牌? L:其实我最看好的夺冠黑马你大概想不到,因为它家之前从未参加过双11,天猫店还是从今年开始经营没多久. Y:哪家那么生猛? L:你肯定知道,单品闪购之王小米啊. Y:难怪,小米今年也参加双11了?

帮朋友问的,vs2003的一段代码,哪里有问题?

问题描述 帮朋友问的,vs2003的一段代码,哪里有问题? // SendPacket.cpp : 定义应用程序的类行为. // #include "stdafx.h" #include "SendPacket.h" #include "SendPacketDlg.h" #ifdef _DEBUG #define new DEBUG_NEW #endif // CSendPacketApp BEGIN_MESSAGE_MAP(CSendPacke

答读者问(21):一个研二学生有关论文的相关疑问及答复

         最近,我在博客上收到一条私信,内容如下:          您好,我是XX通信专业的一名研究生,现在研二,刚刚开会又被老板骂了,唉,他说我不应该从理论开始再去实践,而是从实践开始再去找理论与之相配,简单点说就是,先分析一篇代码再在上面修改编程,然后再以理论来说明,这样的逻辑对么?          因为我看到你的一篇博客<再见,南邮!别了,南京!>上面有写到看了超过100篇的论文,写出的论文EI检索,SCI,所以我想也多看些论文才能想出创新点吧,于是我就看论文,可是老师又说我

发改委答记者问:中国将于2018年前建成国家政府数据统一开放门户

中国国家发展改革委有关负责人日前表示,2018年以前,中国要建成国家政府数据统一开放门户,推进政府和公共部门数据资源统一汇聚和集中向社会开放. 国务院日前印发<促进大数据发展行动纲要>.发展改革委有关负责人说,中国将加强数据资源的国家统筹管理,优先开放相关领域数据.加快建立政府数据资源目录清单,在摸清政府数据家底的基础上,按照"增量先行"的方式加强对各部门数据的国家统筹管理. 相关答记者问内容文摘一并放在下文展示: 近日,国务院印发<促进大数据发展行动纲要> (

答读者问(24):一个大二学生有关数据结构学习的疑问及答复

       最近,在V众投上有一个标题为"最近学习数据结构陷入了死循环大脑一片空白"的问题(http://www.vzhongtou.com/question/744),具体内容如下:         大一下学期学历c语言 学了半吊子 大二一开学就开始讲数据结构 没学过汇编啥的 我知道c语言的指针很重要就复习了指针现在对指针有所了解 老师讲课是一星期讲两节大课 一大章一节讲课一节上机 只讲伪算法 现在讲到树了感觉太抽象了完全搞不懂 本人数学基础比较薄弱 另外感觉自己的逻辑和抽象思维有

央行就《非银行支付机构网络支付业务管理办法(征求意见稿)》有关问题答记者问

为规范非银行支付机构网络支付业务,中国人民银行7月31日发布了<非银行支付机构网络支付业务管理办法(征求意见稿)>,并向社会公开征求意见.1日,央行相关负责人就征求意见稿有关问题回答了记者的提问. 限额管理满足绝大部分客户付款需求 问:人民银行对支付账户进行分类并进行相应的限额管理,是否会影响客户的体验并难以满足客户的支付需求? 答:根据对国内典型代表性支付机构2014年网络支付业务数据的分析,2014年,61.3%的个人客户使用支付账户余额进行消费.转账. 购买投资理财产品等(即<办法