Java中实现双数组Trie树实例_java

传统的Trie实现简单,但是占用的空间实在是难以接受,特别是当字符集不仅限于英文26个字符的时候,爆炸起来的空间根本无法接受。

双数组Trie就是优化了空间的Trie树,原理本文就不讲了,请参考An Efficient Implementation of Trie Structures,本程序的编写也是参考这篇论文的。

关于几点论文没有提及的细节和与论文不一一致的实现:

1.对于插入字符串,如果有一个字符串是另一个字符串的子串的话,我是将结束符也作为一条边,产生一个新的结点,这个结点新节点的Base我置为0

所以一个字符串结束也有2中情况:一个是Base值为负,存储剩余字符(可能只有一个结束符)到Tail数组;另一个是Base为0。

所以在查询的时候要考虑一下这两种情况

2.对于第一种冲突(论文中的Case 3),可能要将Tail中的字符串取出一部分,作为边放到索引中。论文是使用将尾串左移的方式,我的方式直接修改Base值,而不是移动尾串。

下面是java实现的代码,可以处理相同字符串插入,子串的插入等情况

复制代码 代码如下:

/*
 * Name:   Double Array Trie
 * Author: Yaguang Ding
 * Mail: dingyaguang117@gmail.com
 * Blog: blog.csdn.net/dingyaguang117
 * Date:   2012/5/21
 * Note: a word ends may be either of these two case:
 * 1. Base[cur_p] == pos  ( pos<0 and Tail[-pos] == 'END_CHAR' )
 * 2. Check[Base[cur_p] + Code('END_CHAR')] ==  cur_p
 */

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;
import java.util.Arrays;

public class DoubleArrayTrie {
 final char END_CHAR = '\0';
 final int DEFAULT_LEN = 1024;
 int Base[]  = new int [DEFAULT_LEN];
 int Check[] = new int [DEFAULT_LEN];
 char Tail[] = new char [DEFAULT_LEN];
 int Pos = 1;
 Map<Character ,Integer> CharMap = new HashMap<Character,Integer>();
 ArrayList<Character> CharList = new ArrayList<Character>();
 
 public DoubleArrayTrie()
 {
  Base[1] = 1;
  
  CharMap.put(END_CHAR,1);
  CharList.add(END_CHAR);
  CharList.add(END_CHAR);
  for(int i=0;i<26;++i)
  {
   CharMap.put((char)('a'+i),CharMap.size()+1);
   CharList.add((char)('a'+i));
  }
  
 }
 private void Extend_Array()
 {
  Base = Arrays.copyOf(Base, Base.length*2);
  Check = Arrays.copyOf(Check, Check.length*2);
 }
 
 private void Extend_Tail()
 {
  Tail = Arrays.copyOf(Tail, Tail.length*2);
 }
 
 private int GetCharCode(char c)
 {
  if (!CharMap.containsKey(c))
  {
   CharMap.put(c,CharMap.size()+1);
   CharList.add(c);
  }
  return CharMap.get(c);
 }
 private int CopyToTailArray(String s,int p)
 {
  int _Pos = Pos;
  while(s.length()-p+1 > Tail.length-Pos)
  {
   Extend_Tail();
  }
  for(int i=p; i<s.length();++i)
  {
   Tail[_Pos] = s.charAt(i);
   _Pos++;
  }
  return _Pos;
 }
 
 private int x_check(Integer []set)
 {
  for(int i=1; ; ++i)
  {
   boolean flag = true;
   for(int j=0;j<set.length;++j)
   {
    int cur_p = i+set[j];
    if(cur_p>= Base.length) Extend_Array();
    if(Base[cur_p]!= 0 || Check[cur_p]!= 0)
    {
     flag = false;
     break;
    }
   }
   if (flag) return i;
  }
 }
 
 private ArrayList<Integer> GetChildList(int p)
 {
  ArrayList<Integer> ret = new ArrayList<Integer>();
  for(int i=1; i<=CharMap.size();++i)
  {
   if(Base[p]+i >= Check.length) break;
   if(Check[Base[p]+i] == p)
   {
    ret.add(i);
   }
  }
  return ret;
 }
 
 private boolean TailContainString(int start,String s2)
 {
  for(int i=0;i<s2.length();++i)
  {
   if(s2.charAt(i) != Tail[i+start]) return false;
  }
  
  return true;
 }
 private boolean TailMatchString(int start,String s2)
 {
  s2 += END_CHAR;
  for(int i=0;i<s2.length();++i)
  {
   if(s2.charAt(i) != Tail[i+start]) return false;
  }
  return true;
 }
 
 
 public void Insert(String s) throws Exception
 {
  s += END_CHAR;
  
  int pre_p = 1;
  int cur_p;
  for(int i=0; i<s.length(); ++i)
  {
   //获取状态位置
   cur_p = Base[pre_p]+GetCharCode(s.charAt(i));
   //如果长度超过现有,拓展数组
   if (cur_p >= Base.length) Extend_Array();
   
   //空闲状态
   if(Base[cur_p] == 0 && Check[cur_p] == 0)
   {
    Base[cur_p] = -Pos;
    Check[cur_p] = pre_p;
    Pos = CopyToTailArray(s,i+1);
    break;
   }else
   //已存在状态
   if(Base[cur_p] > 0 && Check[cur_p] == pre_p)
   {
    pre_p = cur_p;
    continue;
   }else
   //冲突 1:遇到 Base[cur_p]小于0的,即遇到一个被压缩存到Tail中的字符串
   if(Base[cur_p] < 0 && Check[cur_p] == pre_p)
   {
    int head = -Base[cur_p];
    
    if(s.charAt(i+1)== END_CHAR && Tail[head]==END_CHAR) //插入重复字符串
    {
     break;
    }
    
    //公共字母的情况,因为上一个判断已经排除了结束符,所以一定是2个都不是结束符
    if (Tail[head] == s.charAt(i+1))
    {
     int avail_base = x_check(new Integer[]{GetCharCode(s.charAt(i+1))});
     Base[cur_p] = avail_base;
     
     Check[avail_base+GetCharCode(s.charAt(i+1))] = cur_p;
     Base[avail_base+GetCharCode(s.charAt(i+1))] = -(head+1);
     pre_p = cur_p;
     continue;
    }
    else
    {
     //2个字母不相同的情况,可能有一个为结束符
     int avail_base ;
     avail_base = x_check(new Integer[]{GetCharCode(s.charAt(i+1)),GetCharCode(Tail[head])});
     
     Base[cur_p] = avail_base;
     
     Check[avail_base+GetCharCode(Tail[head])] = cur_p;
     Check[avail_base+GetCharCode(s.charAt(i+1))] = cur_p;
     
     //Tail 为END_FLAG 的情况
     if(Tail[head] == END_CHAR)
      Base[avail_base+GetCharCode(Tail[head])] = 0;
     else
      Base[avail_base+GetCharCode(Tail[head])] = -(head+1);
     if(s.charAt(i+1) == END_CHAR)
      Base[avail_base+GetCharCode(s.charAt(i+1))] = 0;
     else
      Base[avail_base+GetCharCode(s.charAt(i+1))] = -Pos;
     
     Pos = CopyToTailArray(s,i+2);
     break;
    }
   }else
   //冲突2:当前结点已经被占用,需要调整pre的base
   if(Check[cur_p] != pre_p)
   {
    ArrayList<Integer> list1 = GetChildList(pre_p);
    int toBeAdjust;
    ArrayList<Integer> list = null;
    if(true)
    {
     toBeAdjust = pre_p;
     list = list1;
    }
    
    int origin_base = Base[toBeAdjust];
    list.add(GetCharCode(s.charAt(i)));
    int avail_base = x_check((Integer[])list.toArray(new Integer[list.size()]));
    list.remove(list.size()-1);
    
    Base[toBeAdjust] = avail_base;
    for(int j=0; j<list.size(); ++j)
    {
     //BUG
     int tmp1 = origin_base + list.get(j);
     int tmp2 = avail_base + list.get(j);
     
     Base[tmp2] = Base[tmp1];
     Check[tmp2] = Check[tmp1];
     
     //有后续
     if(Base[tmp1] > 0)
     {
      ArrayList<Integer> subsequence = GetChildList(tmp1);
      for(int k=0; k<subsequence.size(); ++k)
      {
       Check[Base[tmp1]+subsequence.get(k)] = tmp2;
      }
     }
     
     Base[tmp1] = 0;
     Check[tmp1] = 0;
    }
    
    //更新新的cur_p
    cur_p = Base[pre_p]+GetCharCode(s.charAt(i));
    
    if(s.charAt(i) == END_CHAR)
     Base[cur_p] = 0;
    else
     Base[cur_p] = -Pos;
    Check[cur_p] = pre_p;
    Pos = CopyToTailArray(s,i+1);
    break;
   }
  }
 }
 
 public boolean Exists(String word)
 {
  int pre_p = 1;
  int cur_p = 0;
  
  for(int i=0;i<word.length();++i)
  {
   cur_p = Base[pre_p]+GetCharCode(word.charAt(i));
   if(Check[cur_p] != pre_p) return false;
   if(Base[cur_p] < 0)
   {
    if(TailMatchString(-Base[cur_p],word.substring(i+1)))
     return true;
    return false;
   }
   pre_p = cur_p;
  }
  if(Check[Base[cur_p]+GetCharCode(END_CHAR)] == cur_p)
   return true;
  return false;
 }
 
 //内部函数,返回匹配单词的最靠后的Base index,
 class FindStruct
 {
  int p;
  String prefix="";
 }
 private FindStruct Find(String word)
 {
  int pre_p = 1;
  int cur_p = 0;
  FindStruct fs = new FindStruct();
  for(int i=0;i<word.length();++i)
  {
   // BUG
   fs.prefix += word.charAt(i);
   cur_p = Base[pre_p]+GetCharCode(word.charAt(i));
   if(Check[cur_p] != pre_p)
   {
    fs.p = -1;
    return fs;
   }
   if(Base[cur_p] < 0)
   {
    if(TailContainString(-Base[cur_p],word.substring(i+1)))
    {
     fs.p = cur_p;
     return fs;
    }
    fs.p = -1;
    return fs;
   }
   pre_p = cur_p;
  }
  fs.p =  cur_p;
  return fs;
 }
 
 public ArrayList<String> GetAllChildWord(int index)
 {
  ArrayList<String> result = new ArrayList<String>();
  if(Base[index] == 0)
  {
   result.add("");
   return result;
  }
  if(Base[index] < 0)
  {
   String r="";
   for(int i=-Base[index];Tail[i]!=END_CHAR;++i)
   {
    r+= Tail[i];
   }
   result.add(r);
   return result;
  }
  for(int i=1;i<=CharMap.size();++i)
  {
   if(Check[Base[index]+i] == index)
   {
    for(String s:GetAllChildWord(Base[index]+i))
    {
     result.add(CharList.get(i)+s);
    }
    //result.addAll(GetAllChildWord(Base[index]+i));
   }
  }
  return result;
 }
 
 public ArrayList<String> FindAllWords(String word)
 {
  ArrayList<String> result = new ArrayList<String>();
  String prefix = "";
  FindStruct fs = Find(word);
  int p = fs.p;
  if (p == -1) return result;
  if(Base[p]<0)
  {
   String r="";
   for(int i=-Base[p];Tail[i]!=END_CHAR;++i)
   {
    r+= Tail[i];
   }
   result.add(fs.prefix+r);
   return result;
  }
  
  if(Base[p] > 0)
  {
   ArrayList<String> r =  GetAllChildWord(p);
   for(int i=0;i<r.size();++i)
   {
    r.set(i, fs.prefix+r.get(i));
   }
   return r;
  }
  
  return result;
 }
 
}

测试代码:

复制代码 代码如下:

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Scanner;

import javax.xml.crypto.Data;

public class Main {

 public static void main(String[] args) throws Exception {
  ArrayList<String> words = new ArrayList<String>();
  BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("E:/兔子的试验学习中心[课内]/ACM大赛/ACM第四届校赛/E命令提示/words3.dic")));
  String s;
  int num = 0;
  while((s=reader.readLine()) != null)
  {
   words.add(s);
   num ++;
  }
  DoubleArrayTrie dat = new DoubleArrayTrie();
  
  for(String word: words)
  {
   dat.Insert(word);
  }
  
  System.out.println(dat.Base.length);
  System.out.println(dat.Tail.length);
  
  Scanner sc = new Scanner(System.in);
  while(sc.hasNext())
  {
   String word = sc.next();
   System.out.println(dat.Exists(word));
   System.out.println(dat.FindAllWords(word));
  }
  
 }

}

下面是测试结果,构造6W英文单词的DAT,大概需要20秒

我增长数组的时候是每次长度增加到2倍,初始1024

Base和Check数组的长度为131072

Tail的长度为262144

TTT1

时间: 2024-10-10 07:45:46

Java中实现双数组Trie树实例_java的相关文章

Java中使用JDBC操作数据库简单实例_java

好久没有编写有关数据库应用程序啦,这里回顾一下java JDBC. 1.使用Java JDBC操作数据库一般需要6步: (1)建立JDBC桥接器,加载数据库驱动: (2)连接数据库,获得Connection对象(使用数据库连接地址,用户名,密码): (3)获得数据库Statement对象: (4)执行数据库操作: (5)读取结果: (6)关闭数据库连接: 2.使用Java JDBC操作数据库(mysql)代码: 连接mysql数据库,需要导入mysql数据库jar包,本代码使用mysql-con

Java中switch判断语句典型使用实例_java

下面一个是典型的switch语法运用的例子. import java.util.Scanner; public class JudgeMonth { public static void main(String[] arg){ Scanner scan = new Scanner(System.in); System.out.println("请输入月份:"); int month = scan.nextInt(); switch(month){ case 12: case 1: ca

java中的Integer的toBinaryString()方法实例_java

在一次面试的过程中,遇到过这样的题目,题目的大概意思是:让写出Integer类中的toBinaryString()方法 也就是说,把Integer转换为Binary的过程写出来 但是我蒙的,在查了JDK的源码,发现了这个很好用的方法,在此给大伙看看 下面是我做的一个测试: 复制代码 代码如下: /** *  */package com.b510.test; /** * @author Hongten * @date 2013-12-15 */public class TestF {     pu

java中字符串与日期的转换实例_java

复制代码 代码如下: import java.sql.Timestamp;import java.text.DateFormat; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; public class DateIO { public static void main(String[] args) { Date date= new  DateIO().strTo

Java中List与数组相互转换实例分析_java

本文实例分析了Java中List与数组相互转换的方法.分享给大家供大家参考.具体如下: 今天写代码遇到一个奇怪的问题,具体代码不贴出了,写一个简化的版本.如下: ArrayList<String> list=new ArrayList<String>(); String strings[]=(String [])list.toArray(); 这样写代码个人觉得应该没什么问题,编译也没有问题.可是具体运行的时候报异常,如下:Exception in thread "mai

java文件输入问题-java中把整数数组的数据输入到文件中的问题

问题描述 java中把整数数组的数据输入到文件中的问题 我是java新手,把整形数组输入到文件中去为什么不是数字,是这些问号? 解决方案 BufferedWriter 用这个写 解决方案二: 写入的编码格式不对,用UTF-8格式试试 解决方案三: 我是用BufferedWriter写的啊 解决方案四: write(int c)这个方法其实输出的是c对应的character,会进行类型的转换,你可以看下输出的源码.如果你要输出整型的话,建议你后面加个空字符串输出吧,换成: bw.write(a[i

java中如何理解这种初始化类实例的方式,我只懂new的方式

问题描述 java中如何理解这种初始化类实例的方式,我只懂new的方式 java中public boolean setViewValue(Viewarg0,Object arg1){ImageView imageView =(ImageView)arg0 Bitmap bitmap=(Bitmap)arg1}如何理解这种初始化类实例的方式,我只懂new的方式 解决方案 这种构造方法是将 依赖的成员对象作为构造函数的参数传进入来的,而传人时还是需要new的啊. 解决方案二: 这没有什么别的,只是a

java中循环遍历数组操作时跳出循环问题

问题描述 java中循环遍历数组操作时跳出循环问题 在遍历数组时,对数组中的值进行比较的时候,如果不是数组内的元素要跳出循环 解决方案 可以啊,直接用break就可以跳出循环了. for (int x : arr1) { bool b = false; for (int y: arr2) { if (x == y) { b = true; break; } } if (!b) y不属于arr1 } 解决方案二: 难理解遍历数组怎么会出现不是数组的元素,实现跳出循环使用break就行了 解决方案三

求助) Java中如何获取数组中的有效数据长度

问题描述 Java中如何获取数组中的有效数据长度?请各位大虾指点一二,谢谢!如:bytearr[]=newbyte[100];现在我向arr中输入任意数(-128~127),请问如何知道我已经输入多少个了呢? 解决方案 解决方案二:for循环呗遍历一次就行.解决方案三:使用一个变量如count记录,输入一个就把count加1.解决方案四:遍历吧解决方案五:要是那样存数,你不如用Vector或其它的,那个容易找,解决方案六:遍历是可以,问题是该用什么做基准值呢?看样子只能用动态数组了解决方案七:用