如何使用shell脚本快速排序和去重文件数据

  前面写过一篇通过shell脚本去重10G数据的文章,见《用几条shell命令快速去重10G数据》。然而今天又碰到另外一个业务,业务复杂度比上次的单纯去重要复杂很多。找了很久没有找到相应的办法,于是用shell脚本程序去处理。具体业务逻辑:

  1、首先根据给定指定进行排序

  2、排序后对给定字段进行去重,去重的规则如下:

    a)排序后如果相邻N行给定字段值相同的行数不超过两行,则两行都保留。

    a)排序后如果相邻N行给定字段值相同的行数超过两行,则保留首行和尾行。

  就这样一个业务逻辑,其实看起来并不是太难。但是问题来了,怎么才能在10~20G的数据中快速地进行处理呢?网上找了很久没找到相应的处理办法,于是先用一种相对笨的办法实现。

  测试数据:

F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss

  shell脚本:

if [ "$#" != "2" ]; then
        echo "Usage: 参数1:文件路径,参数2:文件名。"
        exit
fi
#源文件所在目录
filepath=$1
#源文件绝对路径
orgfile=$filepath"/"$2
#合并字段后的临时文件
#mergerfile="$orgfile"_merge.txt
#排序后的临时文件
sortfile="$orgfile"_sort.txt
#最终结果文件
result_unique="$orgfile"_result_unique.txt
echo "">$result_unique
#echo "文件:$orgfile"
#echo "开始合并字段..."
#awk 'BEGIN{ FS=",";}{ print $1","$2","$3","$4","$5","$6","$7","$1$3$4 }' $orgfile > $mergerfile
#echo "字段合并结束..."

echo "文件排序 start..."
#sort -t $"," -k 1,1 -k 9,9 $mergerfile >$sortfile
sort -t $"," -k 1,2 $orgfile >$sortfile
echo "文件排序 end..."

printf "***********文件比较 start**************************\n"
echo "while read line <$sortfile"
cnt=0
#首行
firstline=""
#尾行
lastline=""
#上一次比较的key
lastKey=""
#文件行数
linecount=`sed -n '$=' $sortfile`
i=1
echo "linecount=========>>>>>>>$linecount"
while read line || [[ -n "$line" ]];
do
  echo $line;
  #合并需要比较的字段
  compare=`echo "$line"|awk -F ',' '{print $1$3$4}'`
  echo "compare=====$compare"
  #判断字符串是否相等
  if [ "$i" != "$linecount" -a "$lastKey" = "$compare" ];then
    echo "[ = ]"
    cnt=$(expr $cnt + 1)
    lastline="$line"
  else
    #首次进来
    if [ "$firstline" = "" ];then
        firstline=$line
        cnt=1
        #echo "$firstline" >> $result_unique
    fi
    #echo "----$i---------------->>>>>>>>>>>$cnt"
    if [ $cnt -gt 1 -o "$i" == "$linecount" ];then
        echo "----$i---------------->>>>>>>>>>>$cnt"

        if [ "$i" != "$linecount" -a "$lastline" != "" ];then
                echo "$lastline" >> $result_unique
                echo "$line" >> $result_unique
        fi

        # 最后一行的特殊处理
        if [ "$i" == "$linecount" ];then
                echo "================last line==================="
                echo "$line" >> $result_unique
        fi

        firstline="$line"
        lastline="$line"
        cnt=1
    elif [ $cnt -eq 1 ];then
        firstline=$line
        lastline="$line"
        cnt=1
        echo "$lastline" >> $result_unique
    fi
  fi
  # 对比key
  lastKey="$compare"
  let i++
done <$sortfile

echo "*******************文件 $orgfile 处理结束***************************"
echo "*******************结果文件 $result_unique ***************************"
exit

  给脚本添加执行权限:

chmod +x uniquefile.sh

  执行shell脚本

sh ./uniquefile.sh ./文件路径 文件名

  结果:

[root@xddsdsdsddssd ~]# sh uniquefile.sh ./ testfile.csv
文件排序 start...
文件排序 end...
***********文件比较 start**************************
while read line <.//testfile.csv_sort.txt
linecount=========>>>>>>>6
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
compare=====A0223EE1IDJDJ2938X39284BEOQQQQ54876F0
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
compare=====A0223EE1IDJDJ2938X39284BEOQQQQ54876F0
[ = ]
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
----3---------------->>>>>>>>>>>2
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
[ = ]
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
[ = ]
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E
----6---------------->>>>>>>>>>>3
================last line===================
*******************文件 .//testfile.csv 处理结束***************************
*******************结果文件 .//testfile.csv_result_unique.txt ***************************

  最终结果文件:

[root@wewewwew ~]# more testfile.csv_result_unique.txt 

A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
A0223EE1IDJDJ2938X39284BE,20080304041155 ,OQQQQ54,876F0,88888120,727271202,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss
F250A4FFIDJDJ2938X39252E7,20080304041348 ,OQQQQB8,8769E,88888626,727218105,ss

  时间比较赶,先这样实现吧。哪位亲们有好的办法请告诉我。

时间: 2024-09-21 21:23:17

如何使用shell脚本快速排序和去重文件数据的相关文章

Linux Shell脚本之更新hosts文件以便于访问谷歌服务

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://dgd2010.blog.51cto.com/1539422/1765282   Linux服务器一般不带图形界面,管理员通常都是通过命令行界面直接操作服务器.在日常的管理运维中,经常需要用到github.gist.githubusercontent等网站上的一些内容,也有时需要用到Google上的一些服务,如Google API之类的.然而这些网站大部分都被GFW防火长城屏蔽掉

用shell脚本合并多个文件内容

需求描述 现有多个具有相同命名格式及内容格式的文件,要求编写shell脚本将它们合并到一个文件中. 被合并文件的命名格式为:YYYYMMDDHHMISS.r,例如:20161018030205.r:文件中包含了若干行记录,每行记录包含26个字符,其中第一个字符为标识位,第7到12个字符为时间(格式:YYMMDD),例如:000000161019002925000003N0,该记录的第一个字符0为标识位,第7到12个字符161019表示时间,即16年的10月19日:合并之后的文件的命名格式为:YY

Linux/Unix shell 脚本清除归档日志文件

      对于DEV以及UAT环境,有些时候,数据库需要处于归档模式,但并不需要备份数据库.因此,archive归档日志不停的增长导致磁盘空间被大量耗用.对于这种情形,可以使用一个shell脚本来定时自动清除这些归档日志.本文给出了清除归档日志的脚本.   1.清除归档日志shell脚本   robin@SZDB:~/dba_scripts/custom/bin> more remove_arch_dump.sh #!/bin/bash # --------------------------

shell脚本实现实时检测文件变更_linux shell

使用python做web开发,现在流行使用uwsgi调用python程序,但是使用uwsgi一段时间发现有一个弊端,就是每次更改源代码后必须重启uwsgi才能生效,包括更改模板文件也是,我是个懒人,再经过一段时间反复的更改-重启后我终于忍受不了,决定写一个脚本来定时程序目录的文件改动,并及时自动重启uwsgi,来解放我的双手可以不用理会这些琐碎的重启工作. 用了点时间来编写了一个脚本用来判断是否更改,然后判断是否需要重启uwsgi. 下面放出脚本内容: #!/bin/bash # Author

shell脚本-关于awk对文件进行多次处理的问题

问题描述 关于awk对文件进行多次处理的问题 我需要对一个文件进行多次处理,第一次要扫描整个文件提取关键字,第二次再次扫描整个文件,根据关键字来替换相应内容.但是,awk脚本不是把文件扫描一次就结束了吗?这个该怎么处理? 解决方案 awk的多文件处理 解决方案二: 可以调用两次awk好了.第一次获取关键字,第二次再次扫描.来处理.

编写shell脚本将VPS上的数据备份到Dropbox网盘的方法_linux shell

看到有人用dropbox备份网站数据,所以今天也试了一下,记得以前是一个python脚本,这是用的是bash 脚本,利用dropbox的api来上传下载的,很方便,脚本的地址是Dropbox-Uploader/dropbox_uploader.sh at master · andreafabrizi/Dropbox-Uploader · GitHub ,感谢作者分享这个脚本. 可以到git下载dropbox_uploader.sh,地址为:https://github.com/andreafab

Shell脚本批量重命名文件后缀的3种实现_linux shell

今天突然间想起昨天有个问题还没动手实践下,就是利用shell批量修改文件的后缀,现在动手实践一下. 需求:家目录下有一些sql文件,想批量重命名成txt的 1.find + xargs +sed 复制代码 代码如下: find /root -name '*.sql' |xargs -i echo {}   {} |sed 's/sql/txt/2′  |xargs mv find /root/ -name '*.sql' |sed -e 's/\(.*\).sql$/mv & \1.txt/e'

Shell脚本一次读取文件中一行的2种写法_linux shell

写法一: 复制代码 代码如下: #!/bin/bash while read line do       echo $line     #这里可根据实际用途变化 done < urfile 写法二: 复制代码 代码如下: #!/bin/bash cat urfile | while read line do     echo $line done 注意:以上代码中urfile 为被读取的文件 Shell读取文本文件 方法一:通过命令获取所需内容,传递给变量 复制代码 代码如下: var1=$(g

【shell 脚本】查看*.gz 文件的内容

#!/bin/bash # zmore #使用'more'来查看gzip文件  NOARGS=65  NOTFOUND=66  NOTGZIP=67  if [ $# -eq 0 ] # 与if [ -z "$1" ]效果相同  #  $1是可以存在的, 可以为空, 如:  zmore "" arg2 arg3  then    echo "Usage: `basename $0` filename" >&2    # 错误消息输出