字符串匹配算法之KMP&Boyer-Moore

  KMP算法是通过分析子串,预先计算每个位置发生不匹配的时候所需移动的下一个位置,直到达到字符串的末尾。KMP&Boyer-Moore算法是通过"字符串"与"搜索词"头部对齐,从尾部开始比较的一种方法。

KMP

   对于两个字符串:

1.用短的字符串的第一个字符开始依次与另外一个字符串进行比较

2.如果相同,继续比较下一位置的字符,否则,向后移动一定的距离(已经匹配上的字符个数-已经匹配字符串前缀和后缀对称的位数)

3.直到字符串的最后一位

 

Boyer-Moore

  各种文本编辑器的"查找"功能(Ctrl+F),就是采用的这种算法。

  算法思想却是很简单啊!与KMP不同,它是按照字符串的反向进行比较。

1.用短的字符串的第一个字符与另外一个字符串的起始位置对齐,比较最后一个字符

2.如果相同,继续比较前一个位置的字符,否则,移动一定的距离(不匹配字符个数-不匹配字符在短字符串中的上一次出现的位置)

参考:

http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

http://www.ruanyifeng.com/blog/2013/05/boyer-moore_string_search_algorithm.html


本文 由 cococo点点 创作,采用 知识共享 署名-非商业性使用-相同方式共享 3.0 中国大陆 许可协议进行许可。欢迎转载,请注明出处:
转载自:cococo点点 http://www.cnblogs.com/coder2012

时间: 2024-09-30 00:57:27

字符串匹配算法之KMP&Boyer-Moore的相关文章

c++ monte carlo 字符串匹配算法,

问题描述 c++ monte carlo 字符串匹配算法, monte carlo 字符串匹配 求代码,求注释啊.谢谢好心人

带有通配符的字符串匹配算法

问题描述 带有通配符的字符串匹配算法 C/C++实现 之前面试.遇见一个字符串匹配问题. 大概是这样的: 正常的匹配就不说了, 第一,'*'可以代表连续多个字符. 第二,'a+'可以代表'aa', 'aaa', 'aaaa'.....类推. 第三,'.'代表一个任意字符(非*, +): 字符串str,模式串假设名为mdstr; 我当时想的是str,mdstr都是有'*",等符号的. 后来觉得str应该没有* 我给出了一个可行的算法.暂不提,后来面试官说.两个字符串都允许*. 谁能提供一个思路.考

字符串匹配算法之BF(Brute-Force)算法

蛮力搜索,比较简单的一种字符串匹配算法,在处理简单的数据时候就可以用这种算法,完全匹配,就是速度慢啊. 基本思想 从目标串s 的第一个字符起和模式串t的第一个字符进行比较,若相等,则继续逐个比较后续字符,否则从串s的第二个字符起再重新和串t进行比较.  依此类推,直至串t 中的每个字符依次和串s的一个连续的字符序列相等,则称模式匹配成功,此时串t的第一个字符在串s 中的位置就是t 在s中的位置,否则模式匹配不成功. 具体实现 int BFindex(String S, String T) { i

最简单的php中字符串匹配算法教程

本文实例讲述了php中最简单的字符串匹配算法,具体实现方法如下:  代码如下 复制代码 <?php /* 最简单字符串匹配算法php实现方式   T: ababcabc P: abc   0.          1.          2. ababcabc    ababcabc    ababcabc |||          |||          ||| abc          abc          abc (X)          (X)          (O)   3.  

php中最简单的字符串匹配算法_php技巧

本文实例讲述了php中最简单的字符串匹配算法.分享给大家供大家参考.具体实现方法如下: 复制代码 代码如下: <?php /* 最简单字符串匹配算法php实现方式   T: ababcabc P: abc   0.          1.          2. ababcabc    ababcabc    ababcabc |||          |||          ||| abc          abc          abc (X)          (X)         

php中单字符串匹配算法实例

   代码如下 复制代码 <?php /* 最简单字符串匹配算法php实现方式   T: ababcabc P: abc   0.          1.          2. ababcabc    ababcabc    ababcabc |||          |||          ||| abc          abc          abc (X)          (X)          (O)   3.          4.          5. ababcabc

Horspool 字符串匹配算法

Horspool 字符串匹配算法对Boyer-Moore算法的简化算法. Horspool 算法是一种基于后缀匹配的方法,是一种"跳跃式"匹配算法,具有sub-linear亚线性时间复杂度. Horspool 算法: 对于每个搜索窗口,该算法将窗口内的最后一个字符和模式串中的最后一个字符进行比较.如果相等,则需要进行一个校验过程.该校验过程在搜索窗口中从后向前对文本和模式串进行比较,直到完全相等或者在某个字符处不匹配.无论匹配与否,都将根据字符d在模式串中的下一个出现位置将窗口向右移动

字符串模式匹配之KMP算法图解与 next 数组原理和实现方案

之前说到,朴素的匹配,每趟比较,都要回溯主串的指针,费事.则 KMP 就是对朴素匹配的一种改进.正好复习一下.   KMP 算法其改进思想在于: 每当一趟匹配过程中出现字符比较不相等时,不需要回溯主串的 i指针,而是利用已经得到的"部分匹配"的结果将模式子串向右"滑动"尽可能远的一段距离后,继续进行比较.如果 ok,那么主串的指示指针不回溯!算法的时间复杂度只和子串有关!很好. KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目

字符串匹配算法之SimHash算法

由于实验室和互联网基本没啥关系,也就从来没有关注过数据挖掘相关的东西.在实际工作中,第一次接触到匹配和聚类等工作,虽然用一些简单的匹配算法可以做小数据的聚类,但数据量达到一定的时候就束手无策了. 所以,趁着周末把这方面的东西看了看,做个笔记. 来历 google的论文"detecting near-duplicates for web crawling"--------simhash. Google采用这种算法来解决万亿级别的网页的去重任务. 基本思想 simhash算法的主要思想是降