Shell正则表达式之grep、sed、awk实操笔记_linux shell

最近一直在研究shell脚本这块,刚好闲下来整了下自己手头上比较好的资料中的一些范例,以下是我整理的鸟哥私房菜里面正则表达式里面比较基础的一些语法详解,适合新手查阅。

首先先复制一段范例:

复制代码 代码如下:

# vi regular_express.txt
-------------------------------
"Open Source" is a good mechanism to develop programs.
apple is my favorite food.
Football game is not use feet only.
this dress doesn't fit me.
However, this dress is about $ 3183 dollars.
GNU is free air not free beer.
Her hair is very beauty.
I can't finish the test.
Oh! The soup taste good.
motorcycle is cheap than car.
This window is clear.
the symbol '*' is represented as start.
Oh!My god!
The gd software is a library for drafting programs.
You are the best is mean you are the no. 1.
The world <Happy> is the same with "glad".
I like dog.
google is the best tools for search keyword.
goooooogle yes!
go! go! Let's go.
# I am VBird
--------------------------------

设置语系为C

复制代码 代码如下:

#export LANG=C

grep

1.搜寻特定字符串"the"
注: n为显示行号

复制代码 代码如下:

# grep -n 'the' regular_express.txt

2.反向搜寻特定字符串"the"

复制代码 代码如下:

# grep -vn 'the' regular_express.txt

3.取得任意大小写"the"的这个字符串

复制代码 代码如下:

# grep -in 'the' regular_express.txt

4.利用括号 [] 来搜寻集合字符
搜索test或taste这两个单词时,发现他们有共同的't?st',所以可以这么搜寻

复制代码 代码如下:

# grep -n 't[ae]st' regular_express.txt

这样其实就是在找t[a]st和t[e]st这两个分开的字符
如果搜索有 oo 的字符时,则可以使用:

复制代码 代码如下:

# grep -n 'oo' regular_express.txt

如果搜索oo时不想搜到 oo 前面有 g 的话,我们可以利用反向选择[^]来达成:

复制代码 代码如下:

# grep -n '[^g]oo'  regular_express.txt

如果搜索oo前面不想有小写字符,则:

复制代码 代码如下:

# grep -n '[^a-z]oo' regular_express.txt

注: 大写英文/小写英文/数字 可以使用 [a-z]/[A-Z]/[0-9]等方式来书写,也可以写在一起
[a-zA-Z0-9]表示要求字符串是数字以及英文
如果我们要取得有数字的那行,则:

复制代码 代码如下:

# grep -n '[0-9]' regular_express.txt

注:但考虑到语系对编码顺序的影响,因此除了连续编码使用减号[-]外,也可以用[:lower:]代替a-z 以及 [:digit:] 代替0-9 使用

复制代码 代码如下:

# grep -n '[^[:lower:]]oo' regular_express.txt
# grep -n '[[:digit:]]' regular_express.txt

5.显示行首为'the'的字符串

复制代码 代码如下:

# grep -n '^the' regular_express.txt

显示行首是小写字符

复制代码 代码如下:

# grep -n '^[a-z]' regular_express.txt

6.显示行尾为点 . 的那一行

复制代码 代码如下:

# grep -n '\.$' regular_express.txt

7.显示5-9行数据

复制代码 代码如下:

# cat -An regular_express.txt |head -n 10 |tail -n 6

8.显示空白行

复制代码 代码如下:

# grep -n '^$' regular_express.txt

9.找出g??d字符串,起头g结束d的四个字符串

复制代码 代码如下:

# grep -n 'g..d' regular_express.txt

10. o*代表空字符(就是有没有字符都可以)或者一个到N个o字符,所以grep -n 'o*' regular_express.txt就会把所有行全部打印出来,
11.oo*代表o+空字符或者一个到N个o字符,所以grep -n 'oo*' regular_express.txt就会把o,oo,ooo等的行全部打印出来
12."goo*g"代表gog,goog,gooog...等

复制代码 代码如下:

# grep -n 'goo*g' regular_express.txt

13.找出含g...g字符串的行
注: .代表任意字符, .*则就代表空字符或者一个到N个任意字符

复制代码 代码如下:

# grep -n 'g.*g' regular_express.txt

14.找出含有数字的行

复制代码 代码如下:

# grep -n '[0-9][0-9]*' regular_express.txt

或# grep -n '[0-9]' regular_express.txt

15.找出含两个o的字符串
注:{}因为在shell里有特殊意义,所以需要加跳脱符\来让其失去意义

复制代码 代码如下:

# grep -n 'o\{2\}'  regular_express.txt

找出g后含2到5个o然后以g结尾的字符串

复制代码 代码如下:

# grep -n 'go\{2,5\}g'  regular_express.txt

找出g后含2以上的o然后以g结尾的字符串

复制代码 代码如下:

# grep -n 'go\{2,\}g'  regular_express.txt

总结:
^word     表示带搜寻的字符串(word)在行首
word$     表示带搜寻的字符串(word)在行尾
.         表示1个任意字符
\         表示转义字符,在特殊字符前加\会将原本的特殊字符意义去除
*         表示重复0到无穷多个前一个RE(正则表达式)字符
[list]    表示搜索含有list的字符串
[n1-n2]   表示搜索指定的字符串范围,例如[0-9] [a-z] [A-Z]等
[^list]   表示反向字符串的范围,例如[0-9]表示非数字字符,[A-Z]表示非大写字符范围
\{n,m\}   表示找出n到m个前一个RE字符
\{n,\}    表示n个以上的前一个RE字符
egrep总结:
+    表示重复一个或一个以上的前一个RE字符
范例:egrep 'go+d' regular_express.txt
表示搜寻(god)(good)(goood)...等等字符串,o+代表[一个以上的o]
?    表示重复零个或一个的前一个RE字符
范例:egrep 'go?d' regular_express.txt
表示搜寻(gd)(god)字符串,o?代表[空的或1个o]
注:egrep下'go+d'和'go?d'的结果集合就等于grep下的'go*d'
|    表示用或(or)的方式找出数个字符串
范例:egrep 'gd|good|dog' regular_express.txt
表示搜寻(gd)或(god)或(god)字符串,|代表或
()    表示找出群组字符串
范例:egrep 'g(la|oo)d' regular_express.txt
表示搜寻(glad)或(good)字符串
()    +表示找出多个重复群组的判别
范例: echo 'AxyzxyzxyzxyzxyzC'|egrep 'A(xyz)+C'
表示搜寻开头是A结尾是C,中间有一个以上的'xyz'字符串

sed:

插入:

1.将/etc/passwd 的内容列出并打印行号,同时,将2-5行删除显示

复制代码 代码如下:

# nl /etc/passwd | sed '2,5d'

注: sed是sed -e的简写, 后接单引号
同上删除第2行

复制代码 代码如下:

# nl /etc/passwd | sed '2d'

同上删除第三行到最后一行

复制代码 代码如下:

# nl /etc/passwd | sed '3,$d'

2.在第二行后加上一行test

复制代码 代码如下:

# nl /etc/passwd | sed '2a test'

在第二行前加上一行test

复制代码 代码如下:

# nl /etc/passwd | sed '2i test'

在第二行后加入两行test

复制代码 代码如下:

# nl /etc/passwd | sed '2a test \
> test'

替换行:

3.将2-5行内容取代为 No 2-5 number

复制代码 代码如下:

# nl /etc/passwd | sed '2,5c No 2-5 number'

4 列出/etc/passwd 内第5-7行

复制代码 代码如下:

# nl /etc/passwd |sed -n '5,7p'

替换字符串:

sed 's/被替换字符串/新字符串/g'

1.获取本机IP的行

复制代码 代码如下:

# /sbin/ifconfig eth0 |grep 'inet addr'

将IP前面的部分予以删除

复制代码 代码如下:

# /sbin/ifconfig eth0 |grep 'inet addr'| sed 's/^.*addr://g'

将IP后面的部分删除

复制代码 代码如下:

# /sbin/ifconfig eth0 |grep 'inet addr'| sed 's/^.*addr://g'| sed 's/Bcast:.*$//g'
-------------------
192.168.100.74
-------------------

2.用grep将关键词MAN所在行取出来

复制代码 代码如下:

# cat /etc/man.config |grep 'MAN'

删除批注行

复制代码 代码如下:

# cat /etc/man.config |grep 'MAN'| sed 's/^#.*$//g'

删除空白行

复制代码 代码如下:

# cat /etc/man.config |grep 'MAN'| sed 's/^#.*$//g'| sed '/^$/d'

3.利用sed将regular_express.txt内每一行若为.的换成!
注:-i参数会直接修改文本,而并非直接输出

复制代码 代码如下:

# sed -i 's/.*\.$/\!/g' regular_express.txt

4.利用sed在文本最后一行加入 #This is a test
注: $代表最后一行 a代表行后添加

复制代码 代码如下:

# sed -i '$a #This is a test' regular_express.txt

将selinux配置文件enforcing改成disabled

复制代码 代码如下:

# sed -i '6,6c SELINUX=disabled' /etc/selinux/config

延伸正规表示法:

复制代码 代码如下:

# grep -v '^$' regular_express.txt |grep -v '^#'

延伸写法:

复制代码 代码如下:

# egrep -v '^$'|'^#' regular_express.txt

1. +表示重复一个或一个以上的前一个RE字符

例如:egrep -n 'go+d' regular_express.txt
普通写法: grep -n 'goo*d' regular_express.txt

2. ?表示重复零个或一个前一个RE字符

例如: egrep -n 'go?d' regular_express.txt

3. |表示用或的方式找出数个字符串

例如: egrep -n 'gd|good' regular_express.txt

4. ()表示找出群组字符串

例如: egrep -n 'g(la|oo)d' regular_express.txt
也就是搜寻(glad)或good这两个字符串

5. ()+多个重复群组判别

例如: echo 'AxyzxyzxyzxyzC'|egrep 'A(xyz)+C'

也就是要找开头是A结尾是C 中间有一个以上的'xyz'字符串的意思

awk:

1.用last取出登陆数据前五行

复制代码 代码如下:

# last -n 5

取出账号与登陆者IP,且账号与IP之间以TAB隔开

复制代码 代码如下:

# last -n 5 |awk '{print $1 "\t" $3}'

注:$1代表用空格或TAB隔开的第一个字段,以此类推。。
  $0代表该行全部字段

复制代码 代码如下:

# last -n 5 |awk '{print $1 "\t lines:" NR "\t columes:" NF}'

注: NF代表每一行的$0的字段总数
   NR代表目前awk所处的是第几行数据
   FS代表目标分隔符,默认为空格

2.在/etc/passwd中以:来作为分段字符,则我们要查阅第三栏小于10以下的数据,并只列出账号与第三栏

复制代码 代码如下:

# cat /etc/passwd | awk '{FS=":"} $3<10 {print $1 "\t \t"$3}'

注:查询结果未显示第一行数据,是因为我们虽然定义了FS=":" 但却只能在第二行生效
想读取第一行就需要BEGIN这个关键词:

复制代码 代码如下:

# cat /etc/passwd | awk 'BEGIN {FS=":"} $3<10 {print $1 "\t \t"$3}'

df:
比较两个文件的差异:

复制代码 代码如下:

# diff /etc/rc3.d/ /etc/rc5.d/
-------------------
Only in /etc/rc3.d/: K30spice-vdagentd
Only in /etc/rc5.d/: S70spice-vdagentd
-------------------

实例:
1。统计TCP连接状态

复制代码 代码如下:

# netstat -na | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
/^tcp/

过滤出以tcp开头的行,“^”为正则表达式用法,以...开头,这里是过滤出以tcp开头的行。
S[]
定义了一个名叫S的数组,在awk中,数组下标通常从 1 开始,而不是 0。
NF
当前记录里域个数,默认以空格分隔,如上所示的记录,NF域个数等于
$NF
表示一行的最后一个域的值,如上所示的记录,$NF也就是$6,表示第6个字段的值,也就是SYN_RECV或TIME_WAIT等。
S[$NF]
表示数组元素的值,如上所示的记录,就是S[TIME_WAIT]状态的连接数
++S[$NF]
表示把某个数加一,如上所示的记录,就是把S[TIME_WAIT]状态的连接数加一
结果就是显示S数组中最终的数组值
例:S[TIME_WAIT]=最终值 S[TESTABLISHED]=最终值
END
for(key in S)
遍历S[]数组
print key,”\t”,S[key]
打印数组的键和值,中间用\t制表符分割,显示好一些。

PS:关于正则,本站还提供了2款非常简便实用的正则表达式在线工具供大家参考使用:

JavaScript正则表达式在线测试工具:http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:http://tools.jb51.net/regex/create_reg

时间: 2024-09-24 21:34:10

Shell正则表达式之grep、sed、awk实操笔记_linux shell的相关文章

Shell正则表达式学习笔记_linux shell

正规表示法(或称为常规表示法)是透过一些特殊字符的排列,用以搜寻/取代/删除一列或多列文字字符串, 简单的说,正规表示法就是用在字符串的处理上面的一项『表示式』.正规表示法并不是一个工具程序, 而是一个字符串处理的标准依据,如果您想要以正规表示法的方式处理字符串,就得要使用支持正规表示法的工具程序才行, 这类的工具程序很多,例如 vi, sed, awk 等等. 一.正则表达式是什么? 正则表达式是用于描述字符排列和匹配模式的一种语法规则.它主要用于字符串的模式分割.匹配.查找及替换操作. 二.

linux awk时间计算脚本及awk命令详解_linux shell

在linux如果计划时间是个麻烦事, 用awk脚本如下 BEGIN {FS=":";OFS=":"} {total_seconds=total_seconds+$3} total_seconds>=60 {total_seconds=total_sconds-60 $2=$2+1 } {total_minutes=total_minutes+$2 $2=$2+1 } {total_minutes=total_minutes+$2} total_minutes&

一天一个shell命令 linux文本内容操作系列-awk命令详解_linux shell

简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理. awk有3个不同版本: awk.nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本. awk其名称得自于它的创始人 Alfred Aho .Peter Weinberger 和 Brian Kernighan 姓氏的首个字母.实际上 AWK

Shell脚本实现C语言代码行数统计_linux shell

写了一个比较粗糙的C语言代码行数统计脚本,目前还有些bug,而且效率也不高.脚本主要就是去除大部分的注释后统计行数,相当于做了一部分预处理的工作.下面是代码: #!/bin/bash filename=$1 echo "`whoami`" if [ $# -lt 1 ];then echo "usage : ./scripts filename" exit -1 fi if [ ! -f $filename ];then echo "$filename i

shell使用mysqld_multi自动做多实例从库脚本_linux shell

复制代码 代码如下: # cat doallslave.sh#!/bin/sh#code by scpman#mail:scpman@live.com#blog:http://www.scpman.com#name:"doallslave.sh"helpinfo(){echo -e '\t\thelp 查看帮助信息'echo -e '\t\t自动做allslave从库脚本使用帮助'echo -e '\t\tslavename 只能是xxx_xxx这种命令例如:zq2013_test1'

Shell脚本逐行读取文本文件(不改变文本格式)_linux shell

网上有很多 shell script 读文本文件的例子,但是都没有讲出故事的全部,只说了一半.举个例子,比如从一个 testfile 文件中读取如下格式的文本行: 复制代码 代码如下: $ vi testfile ls      -a -l /bin |  sort ls      -a -l /bin |  sort | wc ls      -a -l |  grep sh | wc ls      -a -l ls      -a -l |       sort      |    wc

简化shell终端命令输入的脚本式快捷键工具_linux shell

1.解决的问题 当你需要一次输入很多个命令的时候,例如一次去多个目录删除文件 复制代码 代码如下: cd dir1 rm file1.temp cd ../../dir2 rm -rf dir3 当你懒得输入一个好长的命令或者直接就记不住那么长的命令的时候,例如生成ctags ctags --languages=C++ --exclude=third_party --exclude=.git --exclude=build --exclude=out -R -f .tags 当你想要个类似快捷键

Shell脚本实现查杀子进程、僵尸进程_linux shell

核心服务器上跑了一堆的脚本.程序,难免有时候会出现僵尸进程,死不死活不活的在那里占用资源,最初只是写了个根据关键字查杀进程的linux shell脚本,后来发现很多时候进程死在那里的时候其实是内部调用子进程的时候出现了问题,这时候光杀父进程根本没解决根本问题.比如说rsync的时候通过ssh来连接,rsync本身没问题,但可能ssh死掉了.因此重新写了脚本,递归查找子进程. 复制代码 代码如下: #!/bin/sh # 递归找到导致进程僵死的最底层子进程并杀除. ParentProcessID=

shell查找符号链接及其指向目标的方法介绍_linux shell

在类unix系统中,符号链接是很常见的,我们会碰到各种与符号链接相关的处理工作.本文为大家介绍一些处理符号链接的实践方法,希望对大家编写shell脚本时带来一些帮助,有需要的朋友不妨参考下. 1.符号链接可以看作是指向其它文件的指针.它在功能上类似于Mac OS中的别名或windows中的快捷方式,记住是类似,而非就是哦.2.删除符号链接不会影响到原始的文件. 创建符号链接:$ ln -s target symbolic_link_name 例如:$ ln -s /var/www/ ~/web这