shell两个文件去重的多种姿势_linux shell

前言

大家都知道shell在文本处理上确有极大优势，比如多文本合并、去重等，但是最近遇到了一个难搞的问题，即两个大数据量文件去重。下面来看看详细的介绍吧。

要求

有txt文件A.txt和B.txt。

其中A为关键词和搜索量，以逗号分隔，约90万行。

B为关键词，约400万行。

需要从A中找出与B重复的关键词。

我试了N种姿势，但结果都不尽人意，最奇怪的是有些方法对小数据量的测试文件有用，一旦用在A与B上就会失败，真叫人百思不得其解。

姿势一：

awk -F, '{print $1}' A >keywords.txt
cat keywords.txt B.txt | sort | uniq -d

#先从A.txt种取出关键词，然后与B.txt一起打开，用sort排序，uniq -d 取出重复的行

姿势二：

awk -F, '{print $1}' A >keywords.txt
#照例先取出关键词

comm -1 -2 keywords.txt B.txt
#利用comm命令，显示两个文件都存在的行

姿势三：

awk -F, '{print $1}' A >keywords.txt
for i in `cat keywords.txt`
do
  A=`egrep -c "^$i$" B.txt`
  if [ $A != 0 ]
  then
    echo $i >>重复关键词.txt
  fi
done

#这种姿势就稍微复杂点
#首先取出关键词，然后利用for循环逐个去B.txt里面匹配（注意正则写法^$i$），如果匹配到的结果数不为0，说明这个关键词是重复的，然后输出
#这种方法的优点是稳妥，缺点是效率太TM低了，90万个词逐一与400万词匹配，shell默认又没有多线程，耗时太长。

姿势四：

awk -F, '{print $1}' A >keywords.txt
cat keywords.txt B.txt | awk '!a[$1]++'

#这个方法的原理其实我不太懂，awk命令实在太强大太高深了，但是这种方法又简洁又快速

其实还有一种grep -v 、grep -f 的方法，但是我没有试过，所以不在这里列出了。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

以上是小编为您精心准备的的内容，在的博客、问答、公众号、人物、课程等栏目也有的相关内容，欢迎继续使用右上角搜索按钮进行搜索shell
，文件去重
，文件内容去重
比较两个文件
linux shell 写文件、linux shell 读取文件、linux shell 删除文件、linux shell 读文件、linux shell文件，以便于您获取更多的相关知识。

时间： 2024-09-27 05:42:06

shell两个文件去重的多种姿势_linux shell的相关文章

Shell逐行读取文件的4种方法_linux shell

在Linux中有很多方法逐行读取一个文件的方法,其中最常用的就是下面的脚本里的方法,而且是效率最高,使用最多的方法.为了给大家一个直观的感受,我们将通过生成一个大的文件的方式来检验各种方法的执行效率. 方法1:while循环中执行效率最高,最常用的方法. 复制代码代码如下: function while_read_LINE_bottm(){ While read LINE do echo $LINE done < $FILENAME } 注释:我习惯把这种方式叫做read釜底抽薪,因为这种方

在Linux下用scp复制文件无需输入密码的技巧_linux shell

当两台LINUX主机之间要互传文件时可使用SCP命令来实现,建立信任关系之后可不输入密码.把你的本地主机用户的ssh公匙文件复制到远程主机用户的~/.ssh/authorized_keys文件中假设本地主机linux100,远程主机linux200 一,在linux100主机里的用户运行 #ssh-keygen -t rsa 结果如下 QUOTE: Generating public/private rsa key pair. Enter file in which to save the k

神奇的shell命令行输入与输出功能介绍_linux shell

标准输入/输出和重定向,Linux发行版Fedora Core Linux,而Red Hat公司原来Red Hat Linux的开发团队也将继续参与这一发行版本的开发工作. 标准输入与输出我们知道,执行一个shell命令行时通常会自动打开三个标准文件,即标准输入文件(stdin),通常对应终端的键盘:标准输出文件(stdout)和标准错误输出文件(stderr),这两个文件都对应终端的屏幕.进程将从标准输入文件中得到输入数据,将正常输出数据输出到标准输出文件,而将错误信息送到标准错误文件中.

shell脚本中取消重定向的方法实例_linux shell

在上一篇关于shell编程的例子中,有讲到把shell脚本进行扩展之后重定向到一个文件中,以便进行查看和调试http://www.jb51.net/article/62435.htm.但是,若是有另一种情况:只是在某些地方进行重定向,而其他地方不进行重定向.那么我们就来修改一下上一篇中的例子来进行这种需求的满足: 复制代码代码如下: #!/bin/bash function setlogfile { if ! [ -z "$1" ]; then echo &q

shell中的各种括号的使用方法_linux shell

在这里我想说的是几种shell里的小括号,大括号结构和有括号的变量,命令的用法,如下: 1.${var} 2.$(cmd) 3.()和{} 4.${var:-string},${var:+string},${var:=string},${var:?string} 5.$((exp)) 6.$(var%pattern),$(var%%pattern),$(var#pattern),$(var##pattern) 现在分述如下: 1.Shell中变量的原形:${var}大家常见的变量形式都是$var

Linux系统中bash shell编程的10个基础问题讲解_linux shell

第1问:为何叫做shell?在介绍 shell 是什么东西之前,不妨让我们重新审视使用者与电脑的关系.我们知道电脑的运作不能离开硬件,但使用者却无法直接对硬件作驱动,硬件的驱动只能透过一个称为"操作系统(Operating System)"的软件来控管,事实上,我们每天所谈的linux,严格来说只是一个操作系统,我们称之为"核心(kernel)".然而,从使用者的角度来说,使用者也没办法直接操作kernel,而是透过kernel的"外壳"程序,也

一天一个shell命令文本操作系列-comm命令用法_linux shell

comm命令比较两个已排序文件每行数据的差异,并将其结果显示出来,如果没有指定任何参数,comm命令读取这两个文件,然后生成三列输出:1>仅在file1中出现的行2>仅在file2中出现的行3>在两个文件中都存在的行. 如果为文件名之一指定 -(减号),则 comm 命令会从标准输入设备读取数据. 题外话:说到比较文件,过来人都用过Beyond Compare,老版本时候,我们只能右键选中用于比较的文件,再选中被比较文件,对比. 如今他有了丰富的界面,支持linux上比较文件. 干

Shell交互批量更改主机名的方法_linux shell

需求分析: 1.ssh公钥拷贝,提供无密码管理. 2.批量同步hosts文件到多台主机. 3.批量修改主机名. 实现: 首先编辑一份用于同步到多台主机的hosts文件 vi /etc/hosts 192.168.0.1 server1 192.168.0.2 server2 192.168.0.3 server3 192.168.0.4 server4 192.168.0.5 server5 192.168.0.6 server6 192.168.0.7 serve

Shell脚本中获取进程ID的方法_linux shell

提问: 我想要知道运行中脚本子shell的进程id.我该如何在shell脚本中得到PID. 当我在执行shell脚本时,它会启动一个叫子shell的进程.作为主shell的子进程,子shell将shell脚本中的命令作为批处理运行(因此称为"批处理进程"). 在某些情况下,你也许想要知道运行中的子shell的PID.这个PID信息可以在不同的情况下使用.比如,你可以使用shell脚本的PID在/tmp下创建一个唯一的临时文件.有时侯脚本需要检测所有运行的进程,它可以从进程列表中排除自身