使用正则表达式找出不包含特定字符串的条目概述

概述

做日志分析工作的经常需要跟成千上万的日志条目打交道,为了在庞大的数据量中找到特定模式的数据,常常需要编写很多复杂的正则表达式。例如枚举出日志文件中不包含某个特定字符串的条目,找出不以某个特定字符串打头的条目,等等。

使用否定式前瞻

正则表达式中有前瞻(Lookahead)和后顾(Lookbehind)的概念,这两个术语非常形象的描述了正则引擎的匹配行为。需要注意一点,正则表达式中的前和后和我们一般理解的前后有点不同。一段文本,我们一般习惯把文本开头的方向称作“前面”,文本末尾方向称为“后面”。但是对于正则表达式引擎来说,因为它是从文本头部向尾部开始解析的(可以通过正则选项控制解析方向),因此对于文本尾部方向,称为“前”,因为这个时候,正则引擎还没走到那块,而对文本头部方向,则称为“后”,因为正则引擎已经走过了那一块地方。如下图所示:

所谓的前瞻就是在正则表达式匹配到某个字符的时候,往“尚未解析过的文本”预先看一下,看是不是符合/不符合匹配模式,而后顾,就是在正则引擎已经匹配过的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我们又称为肯定式匹配和否定式匹配。

现代高级正则表达式引擎一般都支持都支持前瞻,对于后顾支持并不是很广泛,因此我们这里采用否定式前瞻来实现我们的需求。

实现

测试数据:

2009-07-07 04:38:44 127.0.0.1 GET /robots.txt
2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt
2009-07-08 04:38:44 127.0.0.1 GET /

例如上面这几条简单的日志条目,我们想实现两个目标:

1. 把8号的数据过滤掉

2. 把那些不包含robots.txt字符串的条目给找出来(只要Url中包含robots.txt的都给过滤掉)。

前瞻的语法是:

(?!匹配模式)

我们先来实现第一个目标——匹配不以特定字符串开头的条目。

这里我们因为要排除一段连续的字符串,因此匹配模式非常简单,就是2009-07-08。实现如下:

^(?!2009-07-08).*?$

Expresso我们可以看到结果确实过滤掉8号的数据。

接下来,我们来实现第二个目标——排除包含特定字符串的条目。

按照我们上面写法,我照葫芦画瓢了一下:

^.*?(?!robots\.txt).*?$

这段正则用大白话描述就是:开头任意字符,然后后面不要跟着robots.txt连续字符串,然后再跟着任意个字符,字符串结尾。

运行测试,结果发现:

没有达到我们想要的效果。这是为什么呢?我们给上面的正则表达式加上两个捕获分组调试一下:

^(.*?)(?!robots\.txt)(.*?)$

测试结果:

我们看到,第一个分组啥都没有匹配到,而第二个分组却匹配了整个字符串。再回过头来好好分析一下刚才那个正则表达式。实际上,当正则引擎解析到A区域的时候,就已经开始执行B区域的前瞻工作。这个时候发现当A区域为Null的时候匹配成功——.*本来就允许匹配空字符,前瞻条件又满足,A区域后面紧跟着的是“2009”字符串,而并不是robots。因此整个匹配过程成功匹配到所有条目。

分析出原因之后我们对上述的正则进行修正,将.*?移入前瞻表达式,如下:

^(?!.*?robots).*$

测试结果:

Bingo!

时间: 2024-08-01 23:32:01

使用正则表达式找出不包含特定字符串的条目概述的相关文章

利用正则表达式找出文件里的所有邮件地址

package cn.com; //利用正则表达式找出文件里的所有邮件地址 //总结: //String mailreg="\\w+@\\w+\\.\\w+";此句错误 //它可以发现ava@sohu.com这种类型,但是无法发现ava@sohu.com.cn这种类型. //所以需要修改为String mailreg="\\w+@\\w+(\\.\\w+)+";因为\\.\\w+这个整体可以出现多次 import java.util.regex.*; import

用PHP查找文件中是否包含特定字符串

有一大堆文件我们如何找到需要的内容呢,这里实现的方法就是找到对应目录. 打开目录. 遍历所有文件. 每个文件扫一遍, 如果含有显示出来,没有继续查找,直到结束. 页面文件(allFile.php) <div id="checkArea">  <h2>Just Check It!</h2>  <form action="check.php" method="post">   Input the fol

华为面试题答案找出最大长度子字符串_C 语言

复制代码 代码如下: int findMaxSubstring(char* str){    int maxLength = 0;    int maxStartIndex = 0;    int curLength = 0;    int curStartIndex = 0;    bool isFind = 0;    for(unsigned int i = 0;i<strlen(str);i++)    {        if(str[i] >= 'a' && str[

正则表达式匹配不包含某些字符串的技巧_正则表达式

经常我们会遇到想找出不包含某个字符串的文本,程序员最容易想到的是在正则表达式里使用,^(hede)来过滤"hede"字串,但这种写法是错误的.我们可以这样写:[^hede],但这样的正则表达式完全是另外一个意思,它的意思是字符串里不能包含'h','e','d'三个但字符.那什么样的正则表达式能过滤出不包含完整"hello"字串的信息呢? 事实上,说正则表达式里不支持逆向匹配并不是百分之百的正确.就像这个问题,我们就可以使用否定式查找来模拟出逆向匹配,从而解决我们的问

正则表达式匹配不包含某些字符串的技巧

经常我们会遇到想找出不包含某个字符串的文本,程序员最容易想到的是在正则表达式里使用,^(hede)来过滤"hede"字串,但这种写法是错误的.我们可以这样写:[^hede],但这样的正则表达式完全是另外一个意思,它的意思是字符串里不能包含'h','e','d'三个但字符.那什么样的正则表达式能过滤出不包含完整"hello"字串的信息呢? 事实上,说正则表达式里不支持逆向匹配并不是百分之百的正确.就像这个问题,我们就可以使用否定式查找来模拟出逆向匹配,从而解决我们的问

用正则删除不包含某个字符串的行的代码_正则表达式

先说一下这个可疑的ip,58.63.144.170,据说是一个弱智的蜘蛛,上帝保佑它下地狱. 看过apache日志的朋友应该知道,apache的访问日志的每一行是以访问者的ip开始的.因为日志比较大,所以我是用ultraedit来看的.用ultraedit的时候需要注意,它的正则一共有两种,一种是符合perl规范的,而默认的是ut自带的一种,写法比较特殊.本文中用到的正则表达式都是perl兼容的,ut中这个选项可以在"高级->配置->搜索->正则表达式引擎"中进行修改

c++-C++中如何用正则表达式表示包含特定字符的网址

问题描述 C++中如何用正则表达式表示包含特定字符的网址 本人对正则表达式不了解 但最近写的一个程序又需要用到这个东西对网址进行处理求大神给个示例 用一个变量表示包含特定字符串的网址 比如baidu 求完整的代码 头文件什么的 解决方案 正则表达式的语法和规则基本是通用的,:http://www.ido321.com/612.html 解决方案二: 正则表达式的语法和规则基本是通用的 你把php换成C++不就行了 解决方案三: (https?://)?www..*?baidu.*?.(com|c

php 正则 不包含某字符串的正则表达式_正则表达式

常见函数 strstr($str, "abc"); 正则匹配 preg_match("/(abc)?/is", $str); 但是要匹配一个字符串中,不包含某字符串,用正则就比较麻烦了 如果不用正则 !strstr($str, "abc"); 就可以解决问题了 但是用正则呢,就只有这样了,"/^((?!abc).)*$/is" //------------------------------------------------

JavaScript实现找出字符串中第一个不重复的字符_javascript技巧

此算法仅供参考,小菜基本不懂高深的算法,只能用最朴实的思想去表达. //找出字符串中第一个不重复的字符 // firstUniqueChar("vdctdvc"); --> t function firstUniqueChar(str){ var str = str || "", i = 0, k = "", _char = "", charMap = {}, result = {name: "",i