正则表达式是字符处理的根本,并且在各类程序中都基本通用,所以算是个蛮重要的基本功,这里记录几种常用的例子
基本符号含义:
. 匹配除换行符以外的任意字符
^ 匹配字符串的开始
$ 匹配字符串的结束
[] 用来匹配一个指定的字符类别
? 对于前一个字符字符重复
0
次到
1
次
*
对于前一个字符重复
0
次到无穷次
{} 对于前一个字符重复m次
{m,n} 对前一个字符重复为m到n次
\d 匹配数字,相当于[
0
-
9
]
\D 匹配任何非数字字符,相当于[^
0
-
9
]
\s 匹配任意的空白符,相当于[ fv]
\S 匹配任何非空白字符,相当于[^ fv]
\w 匹配任何字母数字字符,相当于[a
-
zA
-
Z0
-
9_
]
\W 匹配任何非字母数字字符,相当于[^a
-
zA
-
Z0
-
9_
]
\b 匹配单词的开始或结束
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
匹配电话号码
正则:\(?0\d{2,3}[)-]?\d{7,8}
匹配转义后的'(‘0或1次->”\(?”,
然后是0然后是2位数字->0\d{2},
然后是0或1次的’)’或者’-‘ ->[)-]?
然后是最少7位,最多8位数字 ->\d{7,8}
可匹配:010-12345678 (010)12345678 (010)1234567 010-1234567 0516-12345678 0516-1234567 (0516)1234567 (0516)12345678
IP地址
(\d{1,3}\.){3}\d{1,3}
(至少1位,至多3位的数字,然后一个’.’)重复3次->(\d{1,3}\.){3}
然后加上一个至少1位,至多3位的数字->\d{1,3}
问题,IP地址的范围是1-255,三位数字超过255就是不合规的,如下:
精准IP地址匹配
((2[0-4]\d|25[0-5]|[01]?\d?\d)\.){3}(2[0-4]\d|25[0-5]|[01]?\d?\d)
(2+[0-4]+任意数字)或者(25[0-5])或者(0/1次的0和1然后是0/1次的数字然后是任意数字)然后是转义后的. 重复三次
然后是一个2[0-4]x或者25[0-5]或者x,0x,0xx,xx,1xx
2[0-4]\d 三位数 2[0-4]X
25[0-5] 三位数250-255
[01]?\d?\d x,0x,0xx,xx,1xx
+一直重复前面的匹配
<a[^>]+>
匹配<a开头 下面一直都不是>的任何字符串,直到>为止(<a*>)
\w+ 一直重复匹配字母数字(\w)直到无法匹配
匹配邮件地址
[‘user01@mail.com’, ‘user02@mail.com’, ‘user04@mail.com’, ‘hejia@hejia.com’]hj@hj.cn
\w+@\w+\.[a-zA-Z]{2,3}
一直匹配字母数字_到@后面一直匹配字母数字_到转以后的.,然后跟上至少2位至多3位的字母
最大匹配/最小匹配
abcd a123d
a.*b a开头b结尾的最长字符直到换行(.的作用是匹配除了换行符),结果是’abcd a123d‘
a.*?b 是匹配a开头最短到b的字符 结果是‘abcd’和’a123d’
零宽断言
匹配
ishejia isnothe-jia meiyouh-j isnohe jia
匹配包含he的单词 \b\w*he\w*\b
匹配包含he但是后面不是jia的单子 \b\w*he[^jia]\w*\b
问题isnohe jia会被当做一个整体来处理,因为he[^jia] he后面要匹配是不是jia,这样写是一定要匹配东西的,这样he和jia中间的空格就被匹配消费了,后面的\w*\b就会把下一个单词匹配进来了
这时候可以换为[?!jia]匹配包含he但是后面不是jia的单词 \b\w*he[?!jia]\w*\b
这样就能匹配出isnohe而不是isnohe jia了