字符串匹配的Boyer-Moore算法

上一篇文章，我介绍了KMP算法。

但是，它并不是效率最高的算法，实际采用并不多。各种文本编辑器的"查找"功能（Ctrl+F），大多采用Boyer-Moore算法。

Boyer-Moore算法不仅效率高，而且构思巧妙，容易理解。1977年，德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。

下面，我根据Moore教授自己的例子来解释这种算法。

1.

假定字符串为"HERE IS A SIMPLE EXAMPLE"，搜索词为"EXAMPLE"。

2.

首先，"字符串"与"搜索词"头部对齐，从尾部开始比较。

这是一个很聪明的想法，因为如果尾部字符不匹配，那么只要一次比较，就可以知道前7个字符肯定不是要找的结果。

我们看到，"S"与"E"不匹配。这时，"S"就被称为"坏字符"（bad character），即不匹配的字符。我们还发现，"S"不包含在搜索词"EXAMPLE"之中，这意味着可以把搜索词直接移到"S"的后一位。

3.

依然从尾部开始比较，发现"P"与"E"不匹配，所以"P"是"坏字符"。但是，"P"包含在搜索词"EXAMPLE"之中。所以，将搜索词后移两位，两个"P"对齐。

4.

我们由此总结出"坏字符规则"：

后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

如果"坏字符"不包含在搜索词之中，则上一次出现位置为 -1。

以"P"为例，它作为"坏字符"，出现在搜索词的第6位（从0开始编号），在搜索词中的上一次出现位置为4，所以后移 6 - 4 = 2位。再以前面第二步的"S"为例，它出现在第6位，上一次出现位置是 -1（即未出现），则整个搜索词后移 6 - (-1) = 7位。

时间： 2024-10-31 09:34:11

字符串匹配的Boyer-Moore算法的相关文章

模糊字符串匹配：双重解密算法

名称匹配的一个大问题是错误的倾向.有许多不同的方式,人们拼写相同的名字,打字错误,误读了另一个人说的话.有许多方法可以免费形式的语言数据被破坏.当您需要搜索/匹配不良数据时,会导致许多头疼. 有很多不同的方法来解决它.像Levenshtein算法一样,它计算出使一个字符串匹配另一个字符串需要进行多少次编辑.或者检查字符串组成的较小序列的NGram算法,并将它们与一个同义词串的序列进行比较.然后有语音算法根据"声音"如何编码字符串.就像SoundEx或Double Metaphone算法

字符串匹配数据匹配-通过算法大数据循环两两比较字符串，因为循环次数过多而导致程序过慢，如何解决？求救。。。

问题描述通过算法大数据循环两两比较字符串,因为循环次数过多而导致程序过慢,如何解决?求救... 数据库有十万条数据,比较的规则是,第一条和第二条后面的所有数据进行比较,第二条和后第三条后面的所有数据进行比较,以此类推...比较所有的数据,所比较的数据是根据所选择的几个列的数据进行相应列的对比.这个过程非常慢,据说用哈希可以提高速度,但是针对我们这样的数据结构不知道如何构造哈希表,有没有大神知道怎么样解决这个问题,小弟在这里请教....这个问题困扰了我很久都不能解决,求解决方案? 我们是在程序端

[算法系列之十四]字符串匹配之Morris-Pratt字符串搜索算法

前言我们前面已经看到,蛮力字符串匹配算法和Rabin-Karp字符串匹配算法均非有效算法.不过,为了改进某种算法,首先需要详细理解其基本原理.我们已经知道,暴力字符串匹配的速度缓慢,并已尝试使用Rabin-Karp中的一个散列函数对其进行改进.问题是,Rabin-Karp的复杂度与强力字符串匹配相同,均为O(mn). 我们显然需要采用一种不同方法,但为了提出这种不同方法,先来看看暴力字符串匹配有什么不妥之处.事实上,再深入地研究一下它的基本原理,就能找到问题的答案了. 在暴力匹配算法中,需要检

字符串匹配的KMP算法

字符串匹配是计算机的基本任务之一. 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"? 许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一.它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth. 这种算法不太容易理解,网上有很多解释,但读起来都很费劲.直到读到Jake Boxer的文章,我才真正理解这种算法.下面,我用自己的语言

[算法系列之十二]字符串匹配之蛮力匹配

引言字符串匹配是数据库开发和文字处理软件的关键.幸运的是所有现代编程语言和字符串库函数,帮助我们的日常工作.不过理解他们的原理还是比较重要的. 字符串算法主要可以分为几类.字符串匹配就是其中之一.当我们提到字符串匹配算法,最基本的方法就是所谓的蛮力解法,这意味着我们需要检查每一个文本串中的字符是否和匹配串相匹配.一般来说我们有文本串和一个匹配串(通常匹配串短于文本串).我们需要做的就是回答这个匹配串是否出现在文本串中. 概述字符串蛮力匹配法的原理非常简单.我们必须检查匹配串的第一个字符与文本

[算法系列之二十六]字符串匹配之KMP算法

一简介 KMP算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特-莫里斯-普拉特操作(简称KMP算法).KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的. 二基于部分匹配表的KMP算法举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含搜索串"ABCDABD"? 步骤1:字符串"BBC ABC

字符串匹配与KMP算法实现

字符串匹配问题字符串匹配问题即在匹配串中寻找模式串是否出现, 首先想到的是使用暴力破解,也就是Brute Force(BF或蛮力搜索) 算法,将匹配串和模式串左对齐,然后从左向右一个一个进行比较, 如果不成功则模式串向右移动一个单位,直到匹配成功或者到达匹配串最后仍然不成功,返回失败. 很明显,这种算法有很多的地方可以优化,假设要搜索的串为S,长度为n,要匹配的串为M,长度为m,时间复杂度为O(nm). 几个优化的字符串匹配算法 (1)Boyer-Moore算法 (2)Rabin-Karp算法

字符串匹配-一道算法问题字符串匹配的

问题描述一道算法问题字符串匹配的为了能有效地辅助对话系统完成限定领域完整对话流程,我们需要一个强大的匹配功能,现在要求你用编程来实现以下功能: 我们给出N个句子,作为语料库,语料库的句子分为以下三类: 1. 包含＂_＂,＂_＂可以匹配任意长度的字符串或者空串,例如,"早上好,店家!"能被语料库中的"_早上好_"匹配到,这类句子优先级最高. 2. 包含＂*＂,＂*＂可以匹配任意长度的字符串或者空串,例如,"早上好,店家!"能被语料库中的&quo

字符串匹配的KMP算法（转）

字符串匹配是计算机的基本任务之一. 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"? 许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一.它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth. 这种算法不太容易理解,网上有很多解释,但读起来都很费劲.直到读到Jake Boxer的文章,我才真正理解这种算法.下面,我用自己的语言

php中字符串匹配KMP算法实现例子

kmp算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特--莫里斯--普拉特操作(简称KMP算法).KMP算法的关键是根据给定的模式串W1,m,定义一个next函数.next函数包含了模式串本身局部匹配的信息例子代码如下复制代码 <?php /* 字符串匹配KMP算法的PHP语言实现 */ function KMP($str) { $K = array(0); $M = 0; $strLen

猜你喜欢

内存卡无法格式化？？

问题描述内存卡无法格式化?? 手机内存卡提示无法格式化,提示请将驱动器插入磁盘,我该通过什么方法对U盘进行格式化,尝试了好多办法都不行,求大神帮帮忙吧解决方案内存卡无法格式化修复解决方案二: ...

考研加油站（kaoyan.com）站长小林访谈

站长网站简介:kaoyan.com是目前国内领先的考研网站,提供大量的权威考研信息及辅导资料,为准备参加考研以及已经考过研的朋友提供了一个精神家园. "再过半年,也就到6月底,如果见不到起 ...

php9个超全局变量的用法详解（一）

PHP 中的许多预定义变量都是"超全局的",这意味着它们在一个脚本的全部作用域中都可用.在函数或方法中无需执行 global $variable; 就可以访问它们. 这些超全局变量 ...

ORACLE SQL性能优化系列 (九)

oracle|性能|优化 27. 基础表的选择基础表(Driving Table)是指被最先访问的表(通常以全表扫描的方式被访问). 根据优化器的不同, SQL语句中基础表的选择是不 ...

利用ISCSI存储技术构建IP存储网络（安全篇）

在前面的文章中,介绍了如何搭建一个简单的iSCSI网络存储系统,作为iSCSI initiator的客户端主机可以任意连接和使用iSCSI target共享出来的所有磁盘和分区,而在很多时候,通过授权 ...

C#用匿名方法添加事件的问题

<C#高级编程>中有个例子添加事件时用匿名方法: btnOne.Click+=newEventHandler(lblInfo.Text="button1waspressed.&q ...

win8用蓝牙连接手机传输文件方法

win8用蓝牙连接手机传输文件方法电脑蓝牙连接手机 1.蓝牙是咱们手机上常用的功能,在微信等聊天工具出来之前,貌似有那么一段时间都是在用蓝牙进行交流,还记得一只老母猪的故事么?言归正传,在没有手 ...

云服务器做负载均衡需要用户做额外的配置吗？

原则上不需要对您的云服务器做特别的配置.对关联到TCP类型 VIP的Linux云服务器,需要修改系统配置文件/etc/sysctl.conf以下三项为0: net.ipv4.conf.defaul ...

Photoshop给黑白儿童证件照上色

对于早年还没有数码相机之前,证件照等基本都是黑白的,其清晰度一般也不是很好,本次PS实例教程将以一张清晰度不是很高的黑白证件照的翻新上色处理进行讲述,着重祛斑和上色两个过程,本教程采用photosho ...

PE桌面背景怎么修改

PE桌面背景怎么修改经常使用PE的话看到的都是一个桌面背景,想不想换一下品味呢?下面就来说说最简单的修改PE背景图的方法: 大部分PE的桌面壁纸都在OP.WIM里面的桌面背景目 ...

Win7系统USB鼠标无法识别怎么解决

解决方法如下: 1.首先,如果你的鼠标出现没有反应的情况,你就把鼠标拔下来,然后插到电脑的另一个USB插口上面,刚插上可能系统不会识别,所以,在这种情况下你最好先重启一下,然后再开机时一般问题也就 ...

U盘防毒的几大招数

U盘大家都会用了,但用的过程中总会遇到这样或那样的病毒,现在就来说一下这方面的绝招. 第一招:打开显示隐藏文件功能,让病毒无所遁形: 打开"我的电脑"在菜单"工具&q ...

Moorestown是什么

Moorestown平台将会于2009-2010年间推出,其将采用更高的制程.更高效能和更强大的节能特性以及更高集成度,让人兴奋的是,英特尔预计Moorestown平台的闲置功率仅为Atom平台的 ...

此网站的安全证书有问题怎么解决

给大家讲过出现此网站的安全证书有问题的解决方法,主要是针对系统时间不对而造成的原因,今天在来讲下其他原因产生打开网页出现此网站的安全证书有问题怎么解决. 上网使用ie7或者ie8或者现在的ie9. ...

阿里云高级专家朱小平：如何打造应对超大流量的负载均衡

大流量高并发互联网应用实践在线峰会官网:https://yq.aliyun.com/activity/112 峰会统一报名链接:http://yq.aliyun.com/webinar/join/49 ...

TLTagsControl https://github.com/ali312/TLTagsControl#tltagscontrol A nice and simple tags input c ...

关于time.h

一直对时间函数有点兴趣,今天打开time.h看了一下.发现内容也不是太多.于是看了看.这是c库里的.C++的,改日再看.一边看一边写了总结,呵呵,效果不错. 在 time.h 文件中.首先我们可以看到 ...

c#-大神再来，谢谢啦。。。。。。。。。。。。

问题描述大神再来,谢谢啦............ 定义学生类Student,从Person类派生包含的字段:学号StuID(字符串类型,长度固定,以实际学号的长度为准).课程成绩CourseSco ...

《JavaScript构建Web和ArcGIS Server应用实战》——第2章　创建地图和添加图层2.1　简介

第2章创建地图和添加图层通过前一章的学习,我们已经掌握了关于HTML.CSS和JavaScript的一些基础知识.接下来我们将正式开始学习如何去创建一些很好的GIS Web应用程序.在本章中,我们 ...

excel文件读取例子-jxl

注意版本是: 2003 excel格式 package com.yanek.test; import java.io.FileInputStream;import java.io.FileNotF ...

C#页面重定向问题求助

问题描述 chromeGeneralRemoteAddress:192.168.2.49:8080RequestURL:http://xxx.cn/venus/103/146/201.do?resou ...

OrientDB 1.0.1发布非关系型的数据库管理系统

OrientDB 是一个开源的非关系型的数据库管理系统.它使用在一般硬件下,可以每秒以15万个文件的速度和容量来存储.它使用Java编写,属于文档形数据库,支持ACID Tx.http://www.a ...

bootstrapvalidator 校验

callback 函数可以写自己的方法校验 issueInvoiceForm.validation = function(){ $('#issueInvoiceForm').on('init.fiel ...

datapicker-如何得到滚动式的日期选择器

问题描述如何得到滚动式的日期选择器要求,在一个activity底部弹出一个滚动式的日期选择器,要美观的解决方案 http://bbs.csdn.net/topics/320016200 解决方案 ...

在android中使用webview加载完一个网页后，如何知道一共加载了多少资源？

问题描述在android中使用webview加载完一个网页后,如何知道一共加载了多少资源? RT,现在有一个需求要知道用webview加载完任意一个网页后一共有多少个资源,现在问题是不知道什么时候网 ...

轻松监控上万台服务器：企业运维监控平台架构设计与实践指南

一.Cacti/Nagios/Zabbix/centreon/Ganglia之抉择 1.cacti Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具 ...

c# acess数据库注册（ID，用户名，password）当输入的ID存在时不能注册的代码

问题描述 c# acess数据库注册(ID,用户名,password)当输入的ID存在时不能注册的代码注册新用户时例:(ID,用户名,password)当输入的ID在数据库中已经存在时Messa ...

微软正式放弃live域名指向bing.com

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅微软最新研发的bing.com中国 ...

solr-SOLR连接数据库的问题

问题描述 SOLR连接数据库的问题我有5个数据库,怎么在项目连接数据库的时候,分别建立出数据库不同的索引,5个数据库都是同样的字段 ,这个咋配置啊解决方案 solr的中的solrconfig配置文 ...

构建风控系统之排坑扫雷（二）

本文讲的是构建风控系统之排坑扫雷(二), 规则之坑黑白名单的"陷阱" 在业务风控里,黑白名单是最好用的,也是最简单粗暴的,简单粗暴意味着容易出现问题,一不留神就会把自己" ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.066 s.