coolcode转SyntaxHighlighter与Mysql正则表达式实现分析_正则表达式

最近,我抽空改成SyntaxHighlighter。由于coolcode插件的开头标签是
<coolcode>
或者[coolcode]这样的,而SyntaxHighlighter是

[code lang="php"]
这样的(或者其他)。遂只能想办法把老的格式转化成新的格式。当然,肯定用到正则表达式了。
原来的代码高亮开头标识为

<coolcode lang="php" download="123.php" linenum="on"><coolcode lang="php" linenum="off"><coolcode lang="php">
这种类型的,
而SyntaxHighlighter的标识为

[code lang="php"]
那根据要求写的正则表达式为

<coolcode lang="[a-z]+".*?>
解释一下

复制代码 代码如下:

[a-z]+ 匹配 php,javascript,cpp,sql,css 等,后面的.*?中的 .表示任何除了换行之外的字符,而*表示0次或者无数次,*+这些表述次数的符号后面接的?标识非贪婪模式


看图,这个正则可以实现上述要求了。

但是,问题还没解决,我们还有一种情况没考虑,那就是
<coolcode
后面不一定接的就是lang="php"这样的属性啊,有可能是download,也有可能是linenum="on/off"啊,所以,我们的正则还需要改。
CFC4N把正则改为
<coolcode.*?lang="[a-z]+".*?>
截图如下

细心的朋友可能看出来图中匹配的红色框内多出了
<coolcode
,意思也就是说,前面的

<coolcode>
需要排除掉。如何排除呢?聪明的你肯定立刻想到.这个万能字符替换成非<>两个符号的规则,好,CFC4N立刻修改一下。
修改之后的正则为

<coolcode.*?lang="[a-z]+".*?>
果然,匹配正常了。结果见截图。

到这里,问题似乎解决了,可是,当初糊涂的我,把coolcode的两种开头标识都用了,那就是

<coolcode
和[coolcode,那么,看官您认为这个正则该如何改写呢?
没错,无非就是开头,结尾的标识考虑两种情况<和[,那么正则就好改了。(别忘了排除规则里的符号哦)
[<\[]coolcode[^<>\[\]]*?lang="[a-z]+"[^<>\[\]]*?[>\]]
嗯,好,我们来看下效果:

很好很完美。
下面,就可以去执行了。
可是,我遇到一个很意外的事情。居然发现老的代码里包含这样的格式
[coolcode linenum=\"off\" lang=\"cpp\"]<coolcode download=\"\" lang=\"cpp\" linenum="off">
呃,问题在这里了,只是多了个转义字符\罢了,那么,改起来,也简单。也就是允许\出现0次或者一次,而标识0次或者1次的符号为?,那么我们直接在\后面加个?,也就是改成这样\?就可以了吗?
显然,不是。在正则表达式里,\也表示转义,那么,匹配\的话,也得转义一下\,则应该为\\? 这样才对。
修改后正则为
[<\[]coolcode[^<>\[\]]*?lang=\\?"[a-z]+\\?"[^<>\[\]]*?[>\]]
匹配结果见下图:

现在,大功告成了。我们可以进行转换了。关于转换,我们可以用两种方法。

•Mysql的REPLACE函数,单个的去替换
<coolcode lang="php/cpp/javascript/sql/css等" download="name" linenum="on/off">
为对应的
[code lang="php/cpp/javascript/sql/css等"]
,这样操作,省的去写程序,取出,替换,再写入了,缺点是量大,手工也挺累,体力活。mysql仅仅支持正则查询,不支持正则查询的替换,我们也可以构造联合嵌套的SQL来替换正则匹配的字符串,但是无法取出php/cpp/javascrip这样的语言标记,替换为新的语言标记。也就是说,mysql不支持正则表达式的反向引用。

•PHP读数据库,替换,再写入。PHP的preg_replace函数支持反向引用(preg_replace不支持自定义组名的反向引用),我们只好写个查询语句,查询包含coolcode标识的文章,然后再替换,当然,直接查询包含coolcode的文章可能太多,我们也可以写个MYSQL支持的POSIX正则引擎的表达式,来匹配使用coolcode标签的文章,再来替换,写入。以减少文章的操作量。当然正则表达式也会浪费很大的资源。
当然,在PHP代码的preg_replace函数使用上面的正则,进行反向引用时,需要对正则稍作修改。给lang=""中间的一个组名。正则修改为
[<\[]coolcode[^<>\[\]]*?lang=\\?"([a-z]+\\?)"[^<>\[\]]*?[>\]]
PHP的替换代码为
$contents = preg_replace('/[<|[]coolcode[^>[\]]*?lang=\\\\?"([^"]+?)\\\\?"[^>[\]]*?[>|\]]/i','[code lang="\\1"',$contents);
其中正则的i修饰符标识不区分大小写。

还有,别忘记了coolcode的结束标识和[/coolcode]要替换成[/code]。
mysql里执行两句sql即可

复制代码 代码如下:

UPDATE wp_posts SET post_content = REPLACE(post_content,'</coolcode>','[\/code]'); //注意后面多了个反斜杠,记得去掉
UPDATE wp_posts SET post_content = REPLACE(post_content,'[/coolcode]','[\/code]'); //注意后面多了个反斜杠,记得去掉

总结:
本文牵扯的正则表达式并无高级用法,都是平常很简单的用法。关于PCRE引擎正则表达式的递归(迭代),组命名,反向引用,零宽断言等,CFC4N会在以后的时间里,找合适的例子写出来。当然,这些高级用法,CFC4N在帮朋友写的正则表达式里已经用到了,大家可以看看,欢迎批评和指点。
PS:如果需要coolcode转SyntaxHighlighter的完整PHP程序,留言即可,我抽空写出来。

时间: 2025-01-25 12:09:41

coolcode转SyntaxHighlighter与Mysql正则表达式实现分析_正则表达式的相关文章

coolcode转SyntaxHighlighter与Mysql正则表达式实现分析

最近,我抽空改成SyntaxHighlighter.由于coolcode插件的开头标签是 <coolcode> 或者[coolcode]这样的,而SyntaxHighlighter是 [code lang="php"] 这样的(或者其他).遂只能想办法把老的格式转化成新的格式.当然,肯定用到正则表达式了. 原来的代码高亮开头标识为 <coolcode lang="php" download="123.php" linenum=&

正则表达式匹配解析过程探讨分析(正则表达式匹配原理)_正则表达式

已经有多篇关于正则表达式介绍的文章,随着我们越来越多使用正则表达式,想对性能做优化.减少我们正则表达式书写匹配Bug.我们不得不进一步深入了解正则表达式执行过程了.下面我们一起学习,分析下正则表达式执行过程.我们会用regexbuddy测试工具分解执行过程,具体工具使用,可以看:正则表达式性能测试工具推荐.优化工具推荐(regexbuddy推荐).要了解正则表达式解析过程前,我们先来熟悉几个概念. 常见正则表达式引擎 引擎决定了正则表达式匹配方法及内部搜索过程,了解它至关重要的.目前主要流行引擎

MySQL中REGEXP正则表达式使用大全_正则表达式

以前我要查找数据都是使用like后来发现mysql中也有正则表达式了并且感觉性能要好于like,下面我来给大家分享一下mysql REGEXP正则表达式使用详解,希望此方法对大家有帮助. MySQL采用Henry Spencer的正则表达式实施,其目标是符合POSIX 1003.2.请参见附录C:感谢.MySQL采用了扩展的版本,以支持在SQL语句中与REGEXP操作符一起使用的模式匹配操作.请参见3.3.4.7节,"模式匹配". 在本附录中,归纳了在MySQL中可用于REGEXP操作

正则表达式(regex)错误使用导致功能漏洞分析_正则表达式

写在前面的话 正则表达式它的强大字符串匹配功能,导致目前在各种程序语言中,都非常流行!它被用来描述或者匹配一系列符合某个句法规则的字符串.很多刚刚使用正则表达式都是从听说这个,然后在要使用时候去网上搜索. 很少人一开始就系统去学习正则表达式,从定义原理使用系统学习.因为,对应初学者觉得它太麻烦了,好多原字符.看到那么长一串字符,就很头痛.因此,也懒得去学习.一般遇到问题,直接去网上搜索.如:"邮箱正则表达式,手机号正则表达式,url正则表达式-.." ,我们发现一个很有意思现象,&qu

Java 正则表达式详解_正则表达式

如果你不熟悉这个术语,那么"正则表达式"(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式. 正则表达式30分钟入门教程 常用正则表达式 许多语言,包括Perl.PHP.Python.JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表达式实现高级"搜索-替换"功能.那么Java又怎样呢?本文写作时,一个包含了用正则表达式进行文本处理的Java规范需求(Specification R

正则表达式 应用四则_正则表达式

以前就想总结一下,一直没有时间,今天看见了一篇好文,特此贡献出来,尽情享受正则的强大功能吧!! 以下为正文内容: ------------------------------------------------------------ 正则表达式(Regular Expression)为字符串模式匹配提供了一种高效.方便的方法.几乎所有高级语言都提供了对正则表达式的支持,或者提供了现成的代码库供调用.本文以ASP环境中常见的处理任务为例,介绍正则表达式的应用技巧.     一.检验密码和邮件地址

正则表达式性能优化方法(高效正则表达式书写)_正则表达式

这里说的正则表达式优化,主要是针对目前常用的NFA模式正则表达式,详细可以参考:正则表达式匹配解析过程探讨分析(正则表达式匹配原理).从上面例子,我们可以推断出,影响NFA类正则表达式(常见语言:GNU Emacs,Java,ergp,less,more,.NET语言, PCRE library,Perl,PHP,Python,Ruby,sed,vi )其实主要是它的"回溯",减少"回溯"次数(减少循环查找同一个字符次数),是提高性能的主要方法. 我们来看个例子:

PHP中基于perl的正则表达式处理函数_正则表达式

前面我们已经学习了正则表达式的基础语法,包括了定界符.原子.元字符和模式修正 符.实际上正则表达式想要起作用的话,就必须借用正则表达式处理函数.本节我们就来介绍一下PHP中基于perl的正则表达式处理函数,主要包含了分割, 匹配,查找,替换等等处理操作,依旧是配合示例讲解,让我们开始吧. 和正则表达式一样,正则表达式处理函数不能够独立使用,而这必须相结合,才能够完成特定的功能.在前面我们也说过,基于perl的正则表达式要快于POXIS正则表达式处理函数,所以我们只介绍以preg开头的基于perl

java正则表达式验证函数_正则表达式

复制代码 代码如下: /** * 验证 正则表达式 * * @author zhujie regex 正则表达式 value 所属字符串 * @return boolean */ public static boolean regex(String regex, String value) { Pattern p = Pattern.compile(regex); Matcher m = p.matcher(value); return m.find(); }