JavaScript的正则也有单行模式了

正则表达式最早是由 Ken Thompson 于 1970 年在他改进过的 QED 编辑器里实现的,正则里最简单的元字符 “.” 在当时所匹配的就是除换行符外的任意字符:

"." is a regular expression which matches any character except <nl>.

上面这句话出自 QED 在 1970 年的官方文档,这可能是史上第一份正则文档。

为什么要这么规定?是因为 QED 是以行为单位来编辑文件的,而且行尾的换行符也算在这一行的内容里。比如你想把一段代码中所有的单行注释删掉,在 QED 里可以用下面这句命令:

1,$s#//.*##

如果 “.” 能匹配到换行符,那么换行符也会被删除,会导致这些行和它的下一行合并,这通常都不是我们想要的结果,所以,“.” 在最初发明时被设计成了不能匹配换行符。虽然现在的操作系统上已经没有 QED 命令让我们测试了,但我们还有 VIM,VIM 里的 “.” 也一样不能匹配换行符,因为同样的原因。

不像在 Node 中,读取文件通常是一股脑读完整个文件,Perl 继承了众多 Linux 命令按行读取文件的传统,像这样:

while (<>) {print $_}

_ 的末尾也有换行符,所以 Perl 也就很自然的继承了 QED 的 “.” 不匹配换行符的规定。但 Perl 毕竟是门编程语言,而不是编辑器,它的正则要匹配的对象不单单会是单行文本,还可能是多行文本,因此在它的正则中,“.” 有跨行匹配的需求,因此 Perl 发明了正则的单行模式 /s,即让 “.” 也能匹配换行符。

Perl 中用来打开单行模式的 /s 修饰符的官方描述是 “Treat the string as single line”,这个 “single line” 要这么理解:“.” 在普通模式下只能匹配行内字符,不能跨行;而在单行模式下,Perl 会假装把多行字符串看成一行,把其中的换行符看做是行内字符,所以 “.” 也就能匹配它们了。更形象点说,就是把下面的三行文本

1 2 3

看成 "1\n2\n3\n" 一行文本,单行模式就是这个意思。

但要命的是,因为同样的原因(字符串变量可以包含多行文本),Perl 还发明了 /m 修饰符,即多行模式,官方描述是 “Treat the string as multiple lines”,这个模式 JavaScript 的正则里自古也有,这里这个“多行”的意思是说:^ 和 $ 元字符默认不会匹配一个字符串中间的那些换行符前后的位置,即认为字符串永远只有一行,打开多行模式后就能匹配了。

也就是说,单行模式和多行模式是针对不同的元字符的,刚接触正则的人都会被“单行模式”和“多行模式”这两个看似是相对应的概念,实则毫无关联的名词给搞晕。

后来,Ruby 的作者可能觉得“单行模式”这个正则术语起的不好,特例独行把让 “.” 匹配换行符这一模式称之为“多行模式”,即让 .* 之类的正则能够匹配多行了,所以也完全讲得通,修饰符也用了 /m(Ruby 中默认会开启 Perl 中的“多行模式”,所以 /m 没被占用),这真是雪上加霜,更乱了。

再后来,Python 作者可能也觉得应该避免“单行模式”这个叫法,于是起了个新的名字 “dotall”,也就是让 dot 能匹配所有字符的意思,很好的名字,再后来 Java 也使用了这个名字。

上面回顾了一下历史,解释了下单行模式的由来以及说明了下单行模式这个名字起得不好。V8 最近刚刚实现了一个 stage 3 的 ES 提案 https://github.com/mathiasbynens/es-regexp-dotall-flag,这个提案为 JavaScript 的正则引入了 /s 修饰符和 dotAll 属性,dotAll 属性是学了 Python 和 Java,/s 修饰符是继承了 Perl 的,这里也没必要发明一个新的修饰符比如 /d,只会让事情更复杂。/s 在 JavaScript 的具体效果是让 “.” 能匹配以前不能匹配的四个行终止符:\n(换行)、\r(回车)、\u2028(行分隔符)、\u2029(段落分隔符):

/foo/s.dotAll // true /^.{4}$/s.test("\n\r\u2028\u2029") // true

其实就是个很简单的东西,但可能一些没有接触过 JavaScript 以外的正则的同学到时候学到这个新的模式后会产生困惑,这里再澄清一下:多行模式控制的是 ^ 和 $ 的表现,单行模式控制的是 “.” 的表现,两者没有直接关系。

然而当初引入单行模式和多行模式这两个易混淆概念的 Perl 语言,已经在 Perl 6 中完全删除了这两个模式:“.” 号默认就匹配换行符,\N 可以匹配换行符除外的任意字符;^ 和 $ 始终匹配字符串的首尾,而新引入了 ^^ 和 $$ 两个元字符来匹配行的首尾。

过去我们常用的单行模式的替代品 [^] 或者 [\s\S] 也不是完全没有用了,比如在一些使用 JavaScript 正则的编辑器里(VS Code、Atom),不太可能给你提供开启单行模式的界面。不过说起编辑器里的正则功能,用 JavaScript 实现的编辑器的正则功能还是太弱了,比如不能在正则自身内部开启某些模式,比如要是在 Sublime(使用 Python 正则)里的话,在正则内部使用 (?s) 就能开启 dotall 模式,比如可以用 (?s)/\*.+?\*/ 匹配到所有的多行注释。

时间: 2024-10-24 14:04:34

JavaScript的正则也有单行模式了的相关文章

js正则表达式中的单行模式与多行模式实例分析_正则表达式

本文实例分析了js正则表达式中的单行模式与多行模式.分享给大家供大家参考.具体如下: js正则表达式是不支持单行模式的.也就是说,不能把某段内容(有换行),采用模式修正符来处理,使整段内容当成一行来处理. 正则多行替换,需要添加/mg模式增强符. 复制代码 代码如下: <html> <head> <script type="text/javascript"> //正则替换链接,链接有换行 function t1(){  var con = docum

js正则表达式中的单行模式与多行模式实例分析

本文实例分析了js正则表达式中的单行模式与多行模式.分享给大家供大家参考.具体如下: js正则表达式是不支持单行模式的.也就是说,不能把某段内容(有换行),采用模式修正符来处理,使整段内容当成一行来处理. 正则多行替换,需要添加/mg模式增强符. <html> <head> <script type="text/javascript"> //正则替换链接,链接有换行 function t1(){ var con = document.getEleme

正则表达式的多行模式与单行模式

测试"多行模式" 测试一 注意:这里样例文本中3eeeee后面没有回车,光标就在e的后面.匹配的结果是3eeeee,如上图的Search Results区中所示. 为什么这里不能匹配1abcde和2abc? 开启多行模式 ^ 可以匹配字符串开头(字符串的开始位置),也可以匹配行的开头(即换行符\n之后的位置) $ 可以匹配字符串结尾(字符串的结束位置), 也可以匹配行的结尾(即换行符\n之前的位置) 关闭多行模式 ^ 只能匹配字符串开头 $ 只能匹配字符串结尾 知识点:\r为回车符,\

总结JavaScript的正则与其他语言的不同之处_javascript技巧

前言 最近发现JavaScript中的正则在某些地方的表现和其他语言或工具中的正则有些不同,比较另类.虽然你几乎不可能写出也几乎用不到下面我讲的这些正则,但是了解一下毕竟是好的. 本文中的代码示例都是在兼容ES5的JavaScript环境中执行的,也就是说,IE9之前版本,Fx4左右的版本,等,中的表现很有可能和我下面讲的不一样. 1.空字符类 不包含任何字符的字符类[]称之为空字符类(empty char class),我相信你没听别人这么叫过,因为在其他语言中,这种写法是非法的,所有的文档和

正则表达式的多行模式与单行模式图文分析

在Expresso中,测试"多行模式" 测试一 注意:这里样例文本中3eeeee后面没有回车,光标就在e的后面.匹配的结果是3eeeee,如上图的Search Results区中所示. 为什么这里不能匹配1abcde和2abc? 开启多行模式 ^ 可以匹配字符串开头(字符串的开始位置),也可以匹配行的开头(即换行符\n之后的位置) $ 可以匹配字符串结尾(字符串的结束位置), 也可以匹配行的结尾(即换行符\n之前的位置) 关闭多行模式 ^ 只能匹配字符串开头 $ 只能匹配字符串结尾 知

javascript使用正则控制input输入框允许输入的值方法大全_javascript技巧

1.只允许输入数字 <input name="username" type="text" onkeyup="value=this.value.replace(/\D+/g,'')"> 2.只允许输入英文字母.数字和下划线(以下二种方法实现) <input name="username" type="text" style="ime-mode:disabled">

JavaScript的设计模式经典之建造者模式_javascript技巧

一.建造者模式模式概念 建造者模式可以将一个复杂的对象的构建与其表示相分离,使得同样的构建过程可以创建不同的表示.也就是说如果我们用了建造者模式,那么用户就需要指定需要建造的类型就可以得到它们,而具体建造的过程和细节就不需要知道了.建造者模式实际就是一个指挥者,一个建造者,一个使用指挥者调用具体建造者工作得出结果的客户. 建造者模式主要用于"分步骤构建一个复杂的对象",在这其中"分步骤"是一个稳定的算法,而复杂对象的各个部分则经常变化. 通俗的说:就是一个白富美需要

Javascript使用正则验证身份证号(简单)_正则表达式

身份证为15位或者18位,15位的全为数字,18位的前17位为数字,最后一位为数字或者大写字母"X". 与之匹配的正则表达式: (^\d{15}$)|(^\d{17}([0-9]|X)$) 下面以Javascript为例进行说明: functionisIdCardNo(num) { num = num.toUpperCase(); //身份证号码为15位或者18位,15位时全为数字,18位前17位为数字,最后一位是校验位,可能为数字或字符X. if ( !(/(^\d{15}$)|(^

Javascript 函数的四种调用模式_javascript技巧

Javascript 函数的四种调用模式 1  函数模式      最普通的函数调用 // 声明式函数 function fn1 () { console.log(this); } // 函数表达式函数 var fn2 = function() { console.log(this); }; // 调用 函数中this表示全局对象,在浏览器中就是指window fn1(); //window fn2(); //window  2 方法模式      函数依附于一个对象,是对象的一个属性,我们再调