字典树+KMP+AC自动机

                            
                    <<字典树模板>>

1:字典树,又称单词查找树,Trie树,是一种树形结构,哈希表的一个变种。用于统计,排序和保存大量的字符串(也可以保存其他的)。优点就是利用公共的前缀来节约存储空间。在这举个简单的例子:比如说我们想储存3个单词,sky、skyline、skymoon。如果只是单纯的按照以前的字符数组存储的思路来存储的话,那么我们需要定义三个字符串数组。但是如果我们用字典树的话,只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了。

2 在trie树中,每一个单词对应不同的一条路径。只有当单词完全相同的时候才有可能出现同一个节点有多个单词结尾的情况,所以如果说所有的单词都不同那么以某个节点为结尾的单词数肯定为1。(画图)

3 注意如果是多组的数据一般采用静态分配的方法。

动态分配

#include<iostream>
#include<algorithm>
#include<cstdio>
#include<cstring>
using namespace std;

struct Trie{
   int count;/*这个根据需要变化*/
   Trie *child[26];
   /*初始化节点*/
   Trie(){
      for(int i = 0 ; i < 26 ; i++)
         child[i] = NULL;
      count = 0;
   }
};
Trie *root;

/*字典树的插入*/
void insert(char *str){
    Trie *s = root;
    for(int i = 0 ; i < strlen(str) ; i++){
       int num = str[i]-'a';
       /*如果以str[i]为首的节点为空*/
       if(s->child[num] == NULL)
         s->child[num] = new Trie();/*创建新的节点*/
       s = s->child[num];
       (s->count)++;/*以s之前为前缀的字符串的个数*/
    }
}

/*字典树的查找*/
int search(char *str){
    Trie *s = root;
    int tmp_count = 0;
    for(int i = 0 ; i < strlen(str) ; i++){
       int num = str[i]-'a';
       /*如果以str[i]为前缀的节点为空,直接返回0*/
       if(s->child[num] == NULL)
         return 0;
       else{
         s = s->child[num];
         tmp_count = s->count;
       }
    }
    return tmp_count;
}

int main(){
   root = new Trie();

   return 0;
}
 

静态分配

#include<iostream>
#include<algorithm>
#include<cstdio>
#include<cstring>
using namespace std;

#define MAXN 100000/*最多的节点个数*/
#define N 30

int cnt;
struct Trie{
   int count;/*这个根据需要变化*/
   Trie *child[N];
   /*初始化节点*/
}trie[MAXN];
Trie *root;

/*静态分配空间*/
Trie* newTrie(){
     trie[cnt].count = 0;
     for(int i = 0 ; i < N;  i++)
         trie[cnt].child[i] = NULL;
     return &trie[cnt++];
}

/*字典树的插入*/
void insert(char *str){
    Trie *s = root;
    for(int i = 0 ; i < strlen(str) ; i++){
       int num = str[i]-'a';
       if(s->child[num] == NULL)
         s->child[num] = newTrie();/*创建新的节点*/
       s = s->child[num];
    }
}

/*字典树的查找*/
bool  search(char *str){
    Trie *s = root;
    int tmp_count = 0;
    for(int i = 0 ; i < strlen(str) ; i++){
       int num = str[i]-'a';
       /*如果以str[i]为前缀的节点为空,直接返回0*/
       if(s->child[num] == NULL)
         return false;
       s = s->child[num];
    }
    return true;
}

int main(){
   cnt = 0;/*初始化节点数为0*/
   root = newTrie();/*给根节点分配空间*/
   return 0;
}

                                                                                                                KMP算法
1 kmp是用来处理字符串的模式匹配问题,只能够匹配单一的字符串。文本串是不回溯的,模式串回到下一个匹配位置。
2 kmp的算法的过程:
  1:假设文本串的长度为n,模式串的长度为m;
  2:先例用O(m)的时间去预处理next数组,next数组的意思指的是当前的字符串匹配失败后要转到的下一个状

  态,next数组和text是无关的,所以可以事先预处理;
  3:利用o(n)的时间去完成匹配;
3 时间复杂度为o(n+m)即o(n);

4 kmp很适合处理的一类问题就是给定一个串B和一序列的串A,问B是哪些A的子串。

5 KMP中我们用两个指针文本串 i和
模板串 j分别表示。A[i-j+1..i] 与B[1..j]完全相等。

  也就是说,i 是不断增加的(文本串是不回溯的),随着i 的增加j
相应地变化,且j 满足以A[i]结尾的长度为j的字符串正好匹配B串的前j个字符,当A[i+1]
!=   B[j+1],KMP的策略是调整j的位置(j = next[j])使得A[i-j+1..i]与B[1..j]保持匹配且新的B[j+1]恰好与A[i+1]匹配(从而使得i和j能继续增加)

6 next的介绍(重点):

   1:next数组只和模式串本身有关和文本串是无关的,因为next表示的是当匹配失败后模式串要回溯到哪个位置。
   2:next数组存储的数据是用来当模式串与主串不匹配的时候要模式串回退到第几个字符与主串再重新匹配,我们知道KMP算法的主串是不回朔的,当不匹配的时候我们不是退回到开始位置重新匹配,而是利用已经匹配的结果将模式串回朔到下一个位置,这个位置比开始位置更近一步;
简单的说就是next[ j ]的值保存的是当模式串中第 j 个字符与主串第 i 个字符不匹配时候,模式串中的哪个字符 重新与主串第 i 个再匹配,这样总的字符比较次数比从开始位置比较的次数就少了。

   3:next[j]存储的就是模式串前j-1个字符(包含j-1)里前缀和后缀最大的匹配长度;也就是有j = next[j] ; 假设有模式串“abcabx”,那么next[6] = 2,那么就是说next[len]
= ans , 整个串的前缀和后缀最长匹配的长度就是ans。

   4:在模式串与标准串进行匹配时,指向他们的指针分别为j、i;当p[j]!=s[i]时,j直接变为next[j],新的p[j]继续与s[i]比较,如果不相等继续进行此操作……那么数组next[j]同样反映了,在模式串p的第j个位置之前,p[0]~p[next[j]-1]与p[i-next[j]]~p[i-1]这两段是完全一样的。假设模式串为“abcdabx”,手动模拟即可知道。

   5:求最大的匹配数的时候应该注意匹配数的范围不能超过固定的范围。

   6:利用next数组求字符串的最小的循环节:

         假设字符串的长度为len,那么最小的循环节就是cir = len-next[len] ; 如果有len%cir == 0,那么这个字符串就是已经是完美的字符串,不用添加任何字符;如果不是完美的那么需要添加的字符数就是cir
- (len-(len/cir)*cir)),相当与需要在最后一个循环节上面添加几个。

  7  有关next的另外一个性质

      假设现在有一个字符串为ababxxxxabab。那么求出的next数组为00012001234,那么前缀和后缀最长的匹配数是4,然后下一个前缀和后缀匹配长度为next[4]
= 2 , 然后下一个为next[2] = 0。
       所以有一个结论就是,假设当前求出的字符串的前缀和后缀的最长的匹配的长度为len,那么下一个满足的前缀和后缀互相匹配的长度为next[len]...依次

7 模板:

#define MAXN 1000010

int ans;
char text[MAXN];/*文本串*/
char pattern[MAXN];/*模式串*/
int next[MAXN];/*next数组*/

/*O(m)的时间求next数组*/
/*求next数组主要是利用自己匹配自己的思路*/
void getNext(){
    int m = strlen(pattern);
    next[0] = next[1] = 0;/*next的前面两个肯定都是0*/
    for(int i = 1 ; i < m ; i++){/*记住这里是从1开始*/
       int j = next[i];
       while(j && pattern[i] != pattern[j])/*匹配失败往失败方向滑动*/
          j = next[j];
       next[i+1] = pattern[i] == pattern[j] ? j+1 : 0;
    }
}

/*o(n)的时间进行匹配*/
void find(){
    int j = 0;/*初始化在模式串的第一个位置*/
    for(int i = 0 ; i < n ; i++){/*遍历整个文本串*/
       while(j && pattern[j] != text[i])/*顺着失配边走,直到可以匹配,最坏得到情况是j = 0*/
         j = next[j];/*相当与向右移动,那么最长的匹配数会减少的*/
       if(pattern[j] == text[i])/*如果匹配成功继续下一个位置*/
         j++;
       if(j == m){/*如果找到了直接输出*/
         ans++;/*ans是用来记录模式串在文本串中出现几次,求匹配的次数*/
         printf("%d\n" , i-m+2);/*输出在文本串中第一个匹配的位置,不是下标*/
         printf("%d\n" , i-m+1);/*输出在文本串中第一个匹配的位置,是下标*/
       }
    }
}

kmp的扩展

1 求解最长公共前缀问题

   extend[i]表示的是文本串text[i,n]和模式串pattern的最长前缀。next[i]则是利用自己匹配自己的原则求出,next[i]表示pattern[i , n]和patten的最长的公共前缀

模板:

int next[MAXN];
int extend[MAXN];
char text[MAXN];
char pattern[MAXN];

/*求extend模式串和文本串匹配*/
void getExtend(){
    int n = strlen(text);/*文本串的长度*/
    int m = strlen(pattern);/*模式串的长度*/
    int a = 0;
    int minLen = min(n , m);

    while(a < minLen && text[a] == pattern[a])
         a++;
    extend[0] = a;/*求出extend[0]的长度为a*/
    a = 0;/*重新赋值为0*/

    /*从1开始枚举*/
    for(int k = 1 ; k < n ; k++){
       int p = a+extend[a]-1;/*之前匹配到的最远的地方*/
       int l = next[k-a];/*上一次的匹配值*/
       if(k-1+l >= p){
         int j = max((p-k+1) , 0);
         while(k+j < n && j < m && text[k+j] == pattern[j])
             j++;
         extend[k] = j;
         a = k;
       }
       else
         extend[k] = l;
    }
}

/*求next,就是自己匹配自己*/
void getNext(){
    int len = strlen(pattern);
    int a = 0;
    next[0] = len;/*第一个位置的LCP是len*/
    while(a < len-1 && pattern[a] == pattern[a+1])
        a++;
    next[1] = a;/*求出next[1]位置的LCP*/
    a = 1;/*a重新赋值为1*/

    /*从2开始枚举*/
    for(int k = 2 ; k < len ; k++){
       int p = a+next[a]-1;/*之前匹配过程中的最远的位置,-1是因为包括自己本身*/
       int l = next[k-a];/*求出上一次的next值*/
       if(k-1+l >= p){/*大于p则说明没有被探访过*/
         int j = max((p-k+1) , 0);
         while(k+j < len && pattern[k+j] == pattern[j])
              j++;
         next[k] = j;/*next[k] = j*/
         a = k;/*a赋值为k*/
       }
       else/*否则不用算直接为l*/
         next[k] = l;
    }
}

2 最小最大表示法(误区:不是对字符串进行排序然后得到就是最小或最大)

问题1:判断两个字符串s1和s2是否是循环同构“直接用s2去匹配s1+s1,看能否找到”

问题2:求一个字符串的最小或最大表示法

/*求最小表示*/
int getMin(){
   char tmp[MAXN];
   memcpy(tmp , words , sizeof(words));
   strcat(words , tmp);
   int len = strlen(words);
   int i = 0 , j = 1 , k = 0;
   while(i+k< len && j+k < len){
      if(words[i+k] == words[j+k])
        k++;
      else{
        if(words[i+k] > words[j+k])
           i = i+k+1;
        else
           j = j+k+1;
        k = 0;
        if(i == j)/*若滑动后i == j那么j++*/
           j++;
      }
   }
   return min(i , j);
}

/*求最大表示*/
int getMax(){
   char tmp[MAXN];
   memcpy(tmp , words , sizeof(words));
   strcat(words , tmp);
   int len = strlen(words);
   int i = 0 , j = 1 , k = 0;
   while(i+k< len && j+k < len){
      if(words[i+k] == words[j+k])
        k++;
      else{
        if(words[i+k] < words[j+k])/*就是这里改为小于即可变成求最大的表示法*/
           i = i+k+1;
        else
           j = j+k+1;
        k = 0;
        if(i == j)/*若滑动后i == j那么j++*/
           j++;
      }
   }
   return min(i , j);
}

AC自动机

1  AC自动机是处理多模式串匹配的字符串算法

2  AC自动机的三个步骤
1 利用文本串建立字典树

2 在字典树上面构造失配指针
   设这个节点上的字母为C,沿着他父亲的失败指针走,直到走到一个节点,他的儿子中也有字母为C的节点。然后把当前节点的失败指针指向那个字目也为C的儿子。如果一直走到了root都没找到,那就把失败指针指向root
最开始,我们把root加入队列(root的失败指针显然指向自己),这以后我们每处理一个点,就把它的所有儿子加入队列,直到搞完。

3 在字典树上面匹配。
  一开始,Trie中有一个指针t1指向root,待匹配串(也就是“文章”)中有一个指针t2指向串头。
  接下来的操作和KMP很相似:如果t2指向的字母,是Trie树中,t1指向的节点的儿子,那么t2+1 , t1改为那个儿子的编号,否则t1顺这当前节点的失败指针向上找,直到t2是t1的一个儿子,或者t1指向根。如果t1路过了一个绿色的点,那么以这个点结尾的单词就算出现过了。或者如果t1所在的点可以顺着失败指针走到一个绿色点,那么以那个绿点结尾的单词就算出现过了。如果找到了以后还要继续往失配边移动,从而找到所有的单词。

4 在trie树中,每一个单词对应不同的一条路径。只有当单词完全相同的时候才有可能出现同一个节点有多个单词结尾的情况,所以如果说所有的单词都不同那么以某个节点为结尾的单词数肯定为1。(画图)

模板:(以hdu2222为例)

#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
#include<algorithm>
using namespace std;

#define MAXN 1000010
#define N 26/*这个地方看是字母还是数字*/

struct Node{
    Node *next;/*失配指针*/
    Node *child[N];/*字典树最多的儿子节点的个数*/
    Node *parent/*有时候需要输出以当前节点为结束的单词*/
    int number;/*标记单词的编号*/
};
Node node[MAXN];
Node *root;
queue<Node*>q;
int cnt;
int vis[MAXN];

 /*字典树静态分配空间*/
Node* newNode(){
   node[cnt].next = NULL;
   node[cnt].number = 0;
   for(int i = 0 ; i < N ; i++)
      node[cnt].child[i] = NULL;
   return &node[cnt++];
}

/*字典树的插入*/
void insert(char *str , int x){
   Node *p = root;
   int len = strlen(len);/*放在循环外面计算*/
   for(int i = 0 ; i < len ; i++){
      int num = str[i]-'a';
      if(p->child[num] == NULL)
         p->child[num] = newNode();
      p = p->child[num];
   }
   p->number = x ;/*记录该节点为结尾的单词编号*/
}

/*求失配函数*/
void getNext(){
   while(!q.empty())
       q.pop();

   q.push(root);/*首先把根节点入队列*/
   root->next = NULL;/*根节点的nexe指向空(也可以自己)*/

   while(!q.empty()){
       Node *p = q.front();
       q.pop();
       for(int i = 0 ; i < N ; i++){/*层次遍历*/
          if(p->child[i] != NULL){
            q.push(p->child[i]);/*把所有的儿子节点全部压入队列*/

            Node *tmp = p->next;/*tmp是p的失配指针*/
            /*沿着失配边走直到某一个节点也有child[i]儿子就把当前p->child[i]的失配指针赋为tmp->child[i]*/
            while(tmp){
               if(tmp->child[i]){
                  p->child[i]->next = tmp->child[i];
                  break;
               }
               tmp = tmp->next;/*向失配边走*/
            }
            if(tmp == NULL)
              p->child[i]->next = root;/*到root还没找到则失配指针为root*/
          }
       }
   }
}

/*匹配的过程*/
int find(){
    int sum = 0;
    int len = strlen(text);

    Node *p = root;

    for(int i = 0 ; i < len ; i++){
       int num = text[i]-'a';
       while(p != root && p->child[num] == NULL)/*没有该儿子节点往失配方向移动*/
           p = p->next;
       if(p->child[num] != NULL){
          p = p->child[num];/*指向儿子节点*/

          Node *tmp = p;
          while(tmp != NULL){/*从儿子节点开始往失配边方向向上移动匹配*/
             if(tmp->num){/*有时候是记录以该节点为结尾的单词的个数*/
              /*
               sum += tmp->num;/*以hdu2222为例,加上匹配的单词个数*/
               tmp->num = 0;
              */
              /*
               vis[tmp->number]++;/*找字符串出现的次数*/
              */
             }
             tmp = tmp->next;/*当找到一个模板串之和继续向失配边移动看有没有其它的串*/
          }
       }
    }
    return sum;
}

int main(){
   scanf("%d" , &Case);
   while(Case--){
      scanf("%d" , &n);
      cnt = 0;
      root = newNode();
      /*输入单词建立trie树*/
      for(int i = 0 ; i < n ; i++){
         scanf("%s" , words[i]);
         insert(words[i] , i+1);
      }
      scanf("%s" , text);
      getNext();
      printf("%d\n" , find());
   }
   return 0;
}
时间: 2024-12-23 09:15:39

字典树+KMP+AC自动机的相关文章

字典树(Trie tree)

Trie,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种.典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计.它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高. 性质 它有3个基本性质: 根节点不包含字符,除根节点外每一个节点都只包含一个字符. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串. 每个节点的所有子节点包含的字符都不相同. [编辑]图示 这是一个Trie结构的例子:  在这个Trie结构中,保存

字典树(Trie Tree)

基本概念和性质 在计算机科学中,trie,又称前缀树或字典树或单词搜索树,是一种有序树,用于保存关联数组,其中的键通常是字符串.与二叉查找树不同,键不是直 接保存在节点中,而是由节点在树中的位置决定.一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串.一般情况下,不是 所有的节点都有对应的值,只有叶子节点和部分内部节点所对应的键才有相关的值. 本文地址:http://www.cnblogs.com/archimedes/p/trie-tree.html,转载请注明

字典树(Trie树)的实现及应用

一.字典树的概念 Trie树,又称字典树,单词查找树或者前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是一个26叉树,数字的字典树是一个10叉树. 与二叉查找树不同,Trie树的键不是直接保存在节点中,而是由节点在树中的位置决定.一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串.一般情况下,不是所有的节点都有对应的值,只有叶子节点和部分内部节点所对应的键才有相关的值. Trie树优点是最大限度地减少无谓的字符串比较,查询效率比较高.核心思想是空间换时

从Trie树(字典树)谈到后缀树(10.28修订)

作者:July.yansha. 出处:http://blog.csdn.net/v_JULY_v .  引言     常关注本blog的读者朋友想必看过此篇文章:从B树.B+树.B*树谈到R 树,这次,咱们来讲另外两种树:Tire树与后缀树.不过,在此之前,先来看两个问题.     第一个问题: 一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析.     之前在此文:海量数据处理面试题集锦与Bit-map详解中给出的参考答案:用trie

经典算法题每日演练——第八题 AC自动机

原文:经典算法题每日演练--第八题 AC自动机        上一篇我们说了单模式匹配算法KMP,现在我们有需求了,我要检查一篇文章中是否有某些敏感词,这其实就是多模式匹配的问题. 当然你也可以用KMP算法求出,那么它的时间复杂度为O(c*(m+n)),c:为模式串的个数.m:为模式串的长度,n:为正文的长度,那 么这个复杂度就不再是线性了,我们学算法就是希望能把要解决的问题优化到极致,这不,AC自动机就派上用场了.    其实AC自动机就是Trie树的一个活用,活用点就是灌输了kmp的思想,从

hdu1251 统计难题 【字典树】

统计难题 Time Limit: 4000/2000 MS (Java/Others)    Memory Limit: 131070/65535 K (Java/Others) Total Submission(s): 19292    Accepted Submission(s): 8518 Problem Description Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的

算法题:HDU 1075 What Are You Talking About(字典树学习题)

链表: http://acm.hdu.edu.cn/showproblem.php?pid=1075 题目: What Are You Talking About Time Limit: 10000/5000 MS (Java/Others)    Memory Limit: 102400/204800 K (Java/Others) Total Submission(s): 7939    Accepted Submission(s): 2470 Problem Description Ign

hdu 2896 病毒侵袭 ac自动机

/* hdu 2896 病毒侵袭 ac自动机 从题意得知,模式串中没有重复的串出现,所以结构体中可以将last[](后缀链接)数组去掉 last[]数组主要是记录具有相同后缀模式串的末尾节点编号 .本题中主要是计算每一个模式串 在主串中有没有出现过,而不是计算出现过多少次,所以将last[]数组省掉.... */ #include<algorithm> #include<iostream> #include<cstdio> #include<cstring>

字典树的基本知识及使用C语言的相关实现_C 语言

概念      如果我们有and,as,at,cn,com这些关键词,那么trie树(字典树)是这样的:      从上面的图中,我们或多或少的可以发现一些好玩的特性.       第一:根节点不包含字符,除根节点外的每一个子节点都包含一个字符.       第二:从根节点到某一节点,路径上经过的字符连接起来,就是该节点对应的字符串.       第三:每个单词的公共前缀作为一个字符节点保存.   使用范围      既然学Trie树,我们肯定要知道这玩意是用来干嘛的.      第一:词频统计