关于正则的迷思

正则是我们日常编程中一定会使用到的，不管是各种语言中的正则匹配，还是linux/unix系统上的grep/egrep命令，都是在使用正则来匹配字符串。随着用的深入，可能会感到越来越迷惑：

为什么有的语言要提供多种正则匹配的函数集？

-- 比如php的preg系列和ereg系列

为什么有的正则语句在不同的语言上匹配出来的东西是不一样的？

-- 比如unix的grep命令和perl语言的grep

故事从头开始讲

正则表达式（Regular Expression）从1956年就开始出现这个概念，后来Unix之父Ken Tompson将这个概念引入Unix，出现了grep工具。但是随着Unix的版本不断演化，Unix的差异也越来越大，一统江湖的POSIX标准就此出现。POSIX（Portable Operating System Interface for uniX）提供的是统一的Unix接口，当然也把正则这块统一了。于是出现了Posix的两种标准：POSIX Basic Regular Expressions （BRE）和POSIX Extended Regular Expressions（ERE）。

BRE就是现在unix系统使用的grep命令，ERE就是现在unix系统使用的egrep命令。ERE就是BRE的扩展包的意思，基本语法都是一样的，但是两者还是有一些区别，比如对于一些特殊符号，“{ }”是否需要使用反斜杆：

要匹配“tt”，在BRE中使用“t\{1,2\}”，在ERE中则是使用“t{1,2}”

BRE和ERE还有的区别就是ERE多了+,?。具体可以看这篇文章：http://www.regular-expressions.info/posix.html

PS：现在网络上说的正则，如果没有特殊说明，应该都是指的是ERE。它也是现在使用最广的正则了。

PS2：grep -e就和egrep是一样的。

故事继续

如果世界上的正则只有一种标准，那一切看起来都这么完美，但是在计算机世界总是有各种各样的历史问题。

有很多种语言也自己定义了一套正则标准，虽然大体上和POSIX的这套很像，但总还是有一些不同的细节的。比如Perl，python，Tcl（Tool Command Language）。都有自己定义的一套正则标准。其中Perl的正则到现在演化成为PCRE（Perl Compatible Regular Expressions）。这个正则语法也是被php所采用的。

GNU grep，linux机器上使用最广泛的正则语法，几乎所有的linux机器上的grep命令都是GNU grep。它和POSIX是一致的，有GNU Basic Regular Expressions 和GNU Extends Regular Expressions。

关于各种版本的正则的不同可以查看这篇http://www.greenend.org.uk/rjk/tech/regexp.html

PHP中的正则

PHP中有两套正则函数集：preg和ereg （如果你算上mb_ereg那就有三套）

preg和ereg分别代表的是PCRE regular Expression和Posix extension regular Expression。preg和ereg有一些不同，最大的不同就是preg有“分隔符”（一般是\或者|）来将正则表达式划出来。还有就是preg是没有大小写不同的函数的，它使用“模式修饰符”来对大小写进行匹配。下面是摘自php文档的函数对照表：

文档中提到的一个例子需要注意下的：

one(self)?(selfsufficient)? 匹配字符串“oneselfsufficient ” 在ereg是会匹配出oneselfsufficient的，但是在preg是匹配到oneself的。就是说posix会尽可能的匹配正则，而对于这种可“多种”匹配的正则，pcre的选择更为保守。

Go中的正则

go中的正则包是regexp，它使用的是叫做RE2（https://code.google.com/p/re2/wiki/Syntax）这个C++写的库，这个库支持了两种标准：Perl 和 POSIX

在函数中也有体现

MustCompile

MustCompilePOSIX

所以呢，下面这个代码：

package main

import(

"regexp"

"fmt"

)

func main() {

var origin1 = `tt`

var reg = `t\z`

matches1 := regexp.MustCompile(reg).FindString(origin1)

fmt.Println(matches1)

/*

matches2 := regexp.MustCompilePOSIX(reg).FindString(origin1)

fmt.Println(matches2)

*/

}

\z是只在perl的正则语法存在，表示以t为结尾，在POSIX中没有，所以如果你把注释的部分放开，这个程序就会抛出panic

go的RE2支持哪些语法可以看https://code.google.com/p/re2/wiki/Syntax 这个页面说明

时间： 2024-10-28 12:06:23

关于正则的迷思

为什么有的语言要提供多种正则匹配的函数集？

为什么有的正则语句在不同的语言上匹配出来的东西是不一样的？

故事从头开始讲

故事继续

PHP中的正则

Go中的正则

关于正则的迷思的相关文章

关于数字化转型的五个迷思

私有云之迷思：未来是什么？

一名风险投资人总结的创业者们十大迷思

Web 2.0的迷思与真实

Google工具条PR更新与排名变化的迷思

互联网内容生产迷思

转评译文：解开创业者们的十大迷思

点评的突破（三）：真实性的迷思

贫民窟的迷思