正则表达式的内建支持通常只限于脚本语言如Ruby,Perl和awk等,这是一个耻辱:尽管正则表达式很神秘,但它是一个强大的文本处理工具。通过内建而不是通过程序库接口来支持它,有很大的不同。
正则表达式只是一种指定字符模式的方法,这个字符模式会在字符串中进行匹配。在Ruby中,通常在斜线之间(/pattern/)编写模式(pattern)来创建正则表达式。同时,Ruby就是Ruby,正则表达式是对象并且可以当作对象来操作。
比如,可以使用如下的正则表达式来编写模式,它会匹配包含Perl或Python的字符串。
复制代码 代码如下:
/Perl|Python/
前面那个斜线界定了这个模式,模式由要匹配的两个子字符串组成,它们被管道符(|)分开。管道符意味着“要么右边的字符串,要么左边的字符串”。在这个例子中,它们分别是Perl或Python。就像在算术表达式中的那样,可以在模式中使用括号,因此可以把模式写成
复制代码 代码如下:
/P(erl|ython)/
也可以在模式中指定重复(repetition)。/ab+c/匹配一个含有a,后面跟着一个或多个b,其后是c的字符串。把模式中的加号改成星号,/ab*c/创建了一个匹配含有a,零个或多个b和然后是c的正则表达式
也可以在模式中匹配一组或多组字符。一些常见的例子是字符类(character classes)如\s,它匹配空白字符(空格符、制表符、回车换行符等等);\d 匹配任何数字;还有\w,它匹配会出现在一个词内的任何字符。一个点(.)匹配几乎任意字符。
一旦创建了模式,不去用它总不好意思。=~匹配操作符可以用正则表达式来匹配字符串。如果在字符串中发现了模式,=~返回模式的开始位置,否则它返回nil。这意味着可以在if和while语句中把正则表达式当作条件使用。比如,如果字符串包含了Perl或Python,下面的代码输出一条消息。
复制代码 代码如下:
if line=~/Perl|Python/
puts "Scripting language mentioned:#{line}"
end
正则表达式匹配到的字符串部分,可以用Ruby的其中一种替换方法,替换为其他文本。
复制代码 代码如下:
line.sub(/Perl/,'Ruby') #用'Ruby'替换第一个'Perl'
line.gsub(/Python/,'Ruby') #用'Ruby'替换所有的'Python'
使用下面语句可以用Ruby替换出现Perl和Python的每个地方。
复制代码 代码如下:
line.gsub(/Perl|Python/,'Ruby')