Aho-Corasick 多模式匹配算法、AC自动机详解

Aho-Corasick算法是多模式匹配中的经典算法,目前在实际应用中较多。

Aho-Corasick算法对应的数据结构是Aho-Corasick自动机,简称AC自动机。

搞编程的一般都应该知道自动机FA吧,具体细分为:确定性有限状态自动机(DFA)和非确定性有限状态自动机NFA。普通的自动机不能进行多模式匹配,AC自动机增加了失败转移,转移到已经输入成功的文本的后缀,来实现。

1.多模式匹配

  多模式匹配就是有多个模式串P1,P2,P3...,Pm,求出所有这些模式串在连续文本T1....n中的所有可能出现的位置。

  例如:求出模式集合{"nihao","hao","hs","hsr"}在给定文本"sdmfhsgnshejfgnihaofhsrnihao"中所有可能出现的位置

2.Aho-Corasick算法  

  使用Aho-Corasick算法需要三步:

  1.建立模式的Trie

  2.给Trie添加失败路径

  3.根据AC自动机,搜索待处理的文本

  下面说明这三步:

2.1建立多模式集合的Trie

  Trie树也是一种自动机。对于多模式集合{"say","she","shr","he","her"},对应的Trie树如下,其中红色标记的圈是表示为接收态:

  

2.2为多模式集合的Trie树添加失败路径,建立AC自动机

  构造失败指针的过程概括起来就一句话:设这个节点上的字母为C,沿着他父亲的失败指针走,直到走到一个节点,他的儿子中也有字母为C的节点。然后把当前节点的失败指针指向那个字母也为C的儿子。如果一直走到了root都没找到,那就把失败指针指向root。

  使用广度优先搜索BFS,层次遍历节点来处理,每一个节点的失败路径。  

  特殊处理:第二层要特殊处理,将这层中的节点的失败路径直接指向父节点(也就是根节点)

 

2.3根据AC自动机,搜索待处理的文本

  从root节点开始,每次根据读入的字符沿着自动机向下移动。

  当读入的字符,在分支中不存在时,递归走失败路径。如果走失败路径走到了root节点,则跳过该字符,处理下一个字符。

  因为AC自动机是沿着输入文本的最长后缀移动的,所以在读取完所有输入文本后,最后递归走失败路径,直到到达根节点,这样可以检测出所有的模式。

3.Aho-Corasick算法代码示例

  模式串集合:{"nihao","hao","hs","hsr"}

  待匹配文本:"sdmfhsgnshejfgnihaofhsrnihao"

  代码:

  1 #include<iostream>
  2 #include<string.h>
  3 #include<malloc.h>
  4 #include <queue>
  5 using namespace std;
  6
  7 typedef struct node{
  8     struct node *next[26];  //接收的态
  9     struct node *par;   //父亲节点
 10     struct node *fail;  //失败节点
 11     char inputchar;
 12     int patterTag;    //是否为可接收态
 13     int patterNo;   //接收态对应的可接受模式
 14 }*Tree,TreeNode;
 15 char pattern[4][30]={"nihao","hao","hs","hsr"};
 16
 17 /**
 18 申请新的节点,并进行初始化
 19 */
 20 TreeNode *getNewNode()
 21 {
 22     int i;
 23     TreeNode* tnode=(TreeNode*)malloc(sizeof(TreeNode));
 24     tnode->fail=NULL;
 25     tnode->par=NULL;
 26     tnode->patterTag=0;
 27     for(i=0;i<26;i++)
 28         tnode->next[i]=NULL;
 29     return tnode;
 30 }
 31
 32 /**
 33 将Trie树中,root节点的分支节点,放入队列
 34 */
 35 int  nodeToQueue(Tree root,queue<Tree> &myqueue)
 36 {
 37     int i;
 38     for (i = 0; i < 26; i++)
 39     {
 40         if (root->next[i]!=NULL)
 41             myqueue.push(root->next[i]);
 42     }
 43     return 0;
 44 }
 45
 46 /**
 47 建立trie树
 48 */
 49 Tree buildingTree()
 50 {
 51     int i,j;
 52     Tree root=getNewNode();
 53     Tree tmp1=NULL,tmp2=NULL;
 54     for(i=0;i<4;i++)
 55     {
 56         tmp1=root;
 57         for(j=0;j<strlen(pattern[i]);j++)   ///对每个模式进行处理
 58         {
 59             if(tmp1->next[pattern[i][j]-'a']==NULL) ///是否已经有分支,Trie共用节点
 60             {
 61                 tmp2=getNewNode();
 62                 tmp2->inputchar=pattern[i][j];
 63                 tmp2->par=tmp1;
 64                 tmp1->next[pattern[i][j]-'a']=tmp2;
 65                 tmp1=tmp2;
 66             }
 67             else
 68                 tmp1=tmp1->next[pattern[i][j]-'a'];
 69         }
 70         tmp1->patterTag=1;
 71         tmp1->patterNo=i;
 72     }
 73     return root;
 74 }
 75
 76 /**
 77 建立失败指针
 78 */
 79 int buildingFailPath(Tree root)
 80 {
 81     int i;
 82     char inputchar;
 83     queue<Tree> myqueue;
 84     root->fail=root;
 85     for(i=0;i<26;i++)   ///对root下面的第二层进行特殊处理
 86     {
 87         if (root->next[i]!=NULL)
 88         {
 89             nodeToQueue(root->next[i],myqueue);
 90             root->next[i]->fail=root;
 91         }
 92     }
 93
 94     Tree tmp=NULL,par=NULL;
 95     while(!myqueue.empty())
 96     {
 97         tmp=myqueue.front();
 98         myqueue.pop();
 99         nodeToQueue(tmp,myqueue);
100
101         inputchar=tmp->inputchar;
102         par=tmp->par;
103
104         while(true)
105         {
106             if(par->fail->next[inputchar-'a']!=NULL)
107             {
108                 tmp->fail=par->fail->next[inputchar-'a'];
109                 break;
110             }
111             else
112             {
113                 if(par->fail==root)
114                 {
115                     tmp->fail=root;
116                     break;
117                 }
118                 else
119                     par=par->fail->par;
120             }
121         }
122     }
123     return 0;
124 }
125
126 /**
127 进行多模式搜索,即搜寻AC自动机
128 */
129 int searchAC(Tree root,char* str,int len)
130 {
131     TreeNode *tmp=root;
132     int i=0;
133     while(i < len)
134     {
135         int pos=str[i]-'a';
136         if (tmp->next[pos]!=NULL)
137         {
138             tmp=tmp->next[pos];
139             if(tmp->patterTag==1)    ///如果为接收态
140             {
141                 cout<<i-strlen(pattern[tmp->patterNo])+1<<'\t'<<tmp->patterNo<<'\t'<<pattern[tmp->patterNo]<<endl;
142             }
143             i++;
144         }
145         else
146         {
147             if(tmp==root)
148                 i++;
149             else
150             {
151                 tmp=tmp->fail;
152                 if(tmp->patterTag==1)    //如果为接收态
153                     cout<<i-strlen(pattern[tmp->patterNo])+1<<'\t'<<tmp->patterNo<<'\t'<<pattern[tmp->patterNo]<<endl;
154             }
155         }
156     }
157     while(tmp!=root)
158     {
159         tmp=tmp->fail;
160         if(tmp->patterTag==1)
161             cout<<i-strlen(pattern[tmp->patterNo])+1<<'\t'<<tmp->patterNo<<'\t'<<pattern[tmp->patterNo]<<endl;
162     }
163     return 0;
164 }
165
166 /**
167 释放内存,DFS
168 */
169 int destory(Tree tree)
170 {
171     if(tree==NULL)
172         return 0;
173     queue<Tree> myqueue;
174     TreeNode *tmp=NULL;
175
176     myqueue.push(tree);
177     tree=NULL;
178     while(!myqueue.empty())
179     {
180         tmp=myqueue.front();
181         myqueue.pop();
182
183         for (int i = 0; i < 26; i++)
184         {
185             if(tmp->next[i]!=NULL)
186                 myqueue.push(tmp->next[i]);
187         }
188         free(tmp);
189     }
190     return 0;
191 }
192
193 int main()
194 {
195     char a[]="sdmfhsgnshejfgnihaofhsrnihao";
196     Tree root=buildingTree();   ///建立Trie树
197     buildingFailPath(root); ///添加失败转移
198     cout<<"待匹配字符串:"<<a<<endl;
199     cout<<"模式"<<pattern[0]<<" "<<pattern[1]<<" "<<pattern[2]<<" "<<pattern[3]<<" "<<endl<<endl;
200     cout<<"匹配结果如下:"<<endl<<"位置\t"<<"编号\t"<<"模式"<<endl;
201     searchAC(root,a,strlen(a)); ///搜索
202     destory(root);  ///释放动态申请内存
203     return 0;
204 }

View Code

  输出:

  

 

 

(上面的两个图,参考网页:http://www.cppblog.com/mythit/archive/2009/04/21/80633.html

时间: 2024-09-20 15:04:58

Aho-Corasick 多模式匹配算法、AC自动机详解的相关文章

Android Doze模式启用和恢复详解

从Android 6.0(API level 23)开始,Android提出了两个延长电池使用时间的省电特性给用户.用户管理可以在没有充电的情况下管理app的行为.当用户一段时间没有使用手机的时候,Doze模式通过延缓app后台的CPU和网络活动减少电量的消耗.App Stanbdy延缓用户最近没有使用app的后台网络活动. 作为移动开发人员,我们开发的App需要有推送功能,不希望在锁屏或者不充电的时候被Doze模式干掉.那么如何检测手机进入Doze模式之后App的状态呢? 一.模拟未充电状态

抽象工厂模式(abstract factory pattern) 详解

抽象工厂模式: 提供一个接口, 用于创建相关或依赖对象的家族, 而不需要明确指定具体类. 全部代码: http://download.csdn.net/detail/u012515223/7403553 具体方法: 1. 提供一个抽象工厂(abstract factory)接口(interface)类, 不同的具体工厂(concrete factory)继承此类. 代码: /** * @time 2014年5月26日 */ package factory; /** * @author C.L.W

java 桥模式(Bridge Pattern)详解_java

java 桥模式(Bridge Pattern) Bridge模式解耦,其实施的定义.它是一种结构模式.本模式涉及充当桥的接口.这座桥使具体的类独立的接口实施者类.  Bridge模式解耦,其实施的定义.它是一种结构模式. 本模式涉及充当桥的接口.这座桥使具体的类独立的接口实施者类. 这两种类型的类可以在不影响彼此被改变. 实例: interface Printer { public void print(int radius, int x, int y); }//from www.j a v

Oracle IMU模式下REDO格式详解

1. 什么是IMU?IMU的主要作用是什么,也就是说为了解决什么问题? IMU--->In Memory Undo,10g新特性,数据库会在shared pool开辟独立的内存区域用于存储Undo信息, 每个新事务都会分配一个IMU buffer(私有的),一个buffer里有很多node,一个node相当于一个block(回滚块). IMU特性: IMU顾名思义就是在内存中的undo,现在每次更改data block,Oracle 不用去更改这个undo block(也不会生成相应的redo了

oppo r9手机单手模式设置开启方法详解

1.在oppo r9手机桌面点击"设置"图标 2.在新界面中找到"手势体感"项,然后点击进入,效果如下 3.在手势体感界面可以看到"亮屏手势"如图所示点击打开进入 4.在亮屏手势界面即可看到我们将要设置的"单手操作"选项,将该选项后面的开关打开即可 好了上文是小编为各位整理的一篇关于oppo r9手机单手模式设置开启方法的过程了,其实手机就自带了此功能,只需要打开就可以了.

佳能SX60 HS白平衡模式及ISO数值详解

给各位摄影爱好者们来详细的对比解析分享一下佳能SX60 HS的白平衡模式以及ISO数值. 解析分享: 佳能SX60 HS支持自动.晴天(日光).阴天.阴影.白炽灯.荧光灯.闪光灯等白平衡模式.   佳能SX60 HS的ISO是多少 佳能SX60 HS的ISO是ISO 100-3200(以1/3级增减).   好了,以上的信息就是小编给各位摄影爱好者们带来的详细的佳能SX60 HS的白平衡模式以及ISO数值解析分享的全部内容了,各位看到这里的摄影爱好者们,小编相信大家现在那是非常的清楚了吧,希望小

用汽车4S模式直销游艇太阳鸟详解获风投秘诀

作为游艇 制造企业,珠海太阳鸟内销和外销的订单比是7:3,这是太阳鸟的"黄金法则". 作为奢侈品的游艇,在国内真的有这么大的市场潜力吗?太阳鸟董事长李跃先说,与国外一流品牌相比,太阳鸟目前在工艺水平上还要差5%,但价格却只有 它们的40%,加上直销与完整的售后增值服务,这让太阳鸟能"做中国人买得起的游艇". 而就在一个月前,达晨创投宣布投资3100万元太阳鸟,创造了国内风投投资游艇行业的第一单.在达晨董事长刘昼看来,中国游艇产业在这一两年很可能会出现一个拐点,两三年

Node.js中使用事件发射器模式实现事件绑定详解_node.js

在Node里,很多对象都会发射事件.比如,一个TCP服务器,每当有客户端请求连接就会发射"connect"事件,又比如,每当读取一整块数据,文件系统就会发射一个"data"事件.这些对象在Node里被称为事件发射器(event emitter).事件发射器允许程序员订阅他们感兴趣的事件,并将回调函数绑定到相关的事件上,这样每当事件发射器发射事件时回调函数就会被调用.发布/订阅模式非常类似传统的GUI模式,比如按钮被点击时程序就会收到相应的通知.使用这种模式,服务端程

佳能S200白平衡模式及ISO数值详解分享

给各位摄影爱好者们来详细的解析分享一下佳能S200相机的白平衡模式以及ISO数值. 解析分享: 白平衡模式 佳能S200支持自动.晴天(日光).阴天.白炽灯.荧光灯.荧光灯H.自定义7种预设白平衡.   ISO是多少 佳能S200的ISO是ISO80-6400. 好了,以上的信息就是小编给各位摄影爱好者们带来的详细的佳能S200相机的白平衡模式以及ISO数值解析分享的全部内容了,各位看到这里的摄影爱好者们,小编相信大家现在那是非常的清楚了吧,希望小编上面解析的内容能够给各位摄影爱好者们带去有用的