PHP函数similar

   PHP有个计算两个字符串相似度的函数similar_text(),可以得出一个百分比来表示两个字符串的相似程度。效果如下:

  similar_text('aaaa', 'aaaa', $percent);

  var_dump($percent);

  //float(100)

  similar_text('aaaa', 'aaaabbbb', $percent);

  var_dump($percent);

  //float(66.666666666667)

  similar_text('abcdef', 'aabcdefg', $percent);

  var_dump($percent);

  //float(85.714285714286)

  利用这个函数,可以用来做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。

  但这个函数具体使用了怎样的算法呢?我研究了他的底层实现,总结为三步:

  (1)找出两个字符串中相同部分最长的一段;

  (2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;

  (3)相似度 = 所有相同部分的长度之和 * 2 / 两个字符串的长度之和;

  我研究的源代码版本是PHP 5.4.6,相关的代码位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加过注释后源代码。

  //找出两个字符串中相同部分最长的一段

  static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)

  {

  char *p, *q;

  char *end1 = (char *) txt1 + len1;

  char *end2 = (char *) txt2 + len2;

  int l;

  *max = 0;

  //以第一个字符串为基准开始遍历

  for (p = (char *) txt1; p < end1; p++) {

  //遍历第二个字符串

  for (q = (char *) txt2; q < end2; q++) {

  //发现有字符相同,继续循环找,l为相同部分的长度

  for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++);

  //冒泡方法找出最长的一个l,并记住相同部分的开始位置

  if (l > *max) {

  *max = l;

  *pos1 = p - txt1;

  *pos2 = q - txt2;

  }

  }

  }

  }

  //计算两个字符串的相同部分的总长度

  static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)

  {

  int sum;

  int pos1, pos2, max;

  //找出两个字符串相同部分最长的一段

  php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);

  //这里是对sum的初始赋值,也是对max值的判断

  //如果max为零,表示两个字符串没有任何相同的字符,也就会跳出if

  if ((sum = max)) {

  //对前半段递归,相同段长度累加

  if (pos1 && pos2) {

  sum += php_similar_char(txt1, pos1,

  txt2, pos2);

  }

  //对后半段递归,相同段长度累加

  if ((pos1 + max < len1) && (pos2 + max < len2)) {

  sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max,

  txt2 + pos2 + max, len2 - pos2 - max);

  }

  }

  return sum;

  }

  //PHP函数定义

  PHP_FUNCTION(similar_text)

  {

  char *t1, *t2;

  zval **percent = NULL;

  int ac = ZEND_NUM_ARGS();

  int sim;

  int t1_len, t2_len;

  //检查参数合法性

  if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "ss|Z", &t1, &t1_len, &t2, &t2_len, &percent) == FAILURE) {

  return;

  }

  //如果有第三个参数

  if (ac > 2) {

  convert_to_double_ex(percent);

  }

  //如果两个字符串长度都为0,返回0

  if (t1_len + t2_len == 0) {

  if (ac > 2) {

  Z_DVAL_PP(percent) = 0;

  }

  RETURN_LONG(0);

  }

  //调用上面的函数,计算两个字符串的相似库

  sim = php_similar_char(t1, t1_len, t2, t2_len);

  //可以看第三个参数percent的计算公式

  if (ac > 2) {

  Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);

  }

  RETURN_LONG(sim);

  }

  另外,PHP还提供了另外一个计算字符串相似度的函数levenshtein(),通过计算两个字符串的编辑距离来表示字符串相似度,这也是一种很常见的算法。levenshtein()的性能相比similar_text()要好一些,因为通过前面的代码分析可以看到,similar_text()的复杂度是O(n^3),n表示最长字符串的长度,而levenshtein()的复杂度为O(m*n),m与n分别为两个字符串的长度。

时间: 2024-08-12 14:47:23

PHP函数similar的相关文章

[python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)

        本文主要是总结最近学习的论文.书籍相关知识,主要是Natural Language Pracessing(自然语言处理,简称NLP)和Python挖掘维基百科Infobox等内容的知识.         此篇文章主要参考书籍<Natural Language Processing with Python>Python自然语言处理,希望对大家有所帮助.书籍下载地址:         官方网页版书籍:http://www.nltk.org/book/         CSDN下载地

理解php Hash函数,增强密码安全

1.声明 密码学是一个复杂的话题,我也不是这方面的专家.许多高校和研究机构在这方面都有长期的研究.在这篇文章里,我希望尽量使用简单易懂的方式向你展示一种安全存储Web程序密码的方法. 2."Hash"是做什么的? "Hash将一段数据(小数据或大数据)转换成一段相对短小的数据,如字符串或整数." 这是依靠单向hash函数来完成的.所谓单向是指很难(或者是实际上不可能)将其反转回来.一个常见的hash函数的例子是md5(),它流行于各种计算机语言和系统. 复制代码 代

Linux系统调用fsync函数详解

  功能描述: 同步内存中所有已修改的文件数据到储存设备. 用法: #include int fsync(int fd); 参数: fd:文件描述词. 返回说明: 成功执行时,返回0.失败返回-1,errno被设为以下的某个值 EBADF: 文件描述词无效 EIO : 读写的过程中发生错误 EROFS, EINVAL:文件所在的文件系统不支持同步 强制把系统缓存写入文件sync和fsync函数,, fflush和fsync的联系和区别2010-05-10 11:25传统的U N I X实现在内核

理解php Hash函数,增强密码安全_php技巧

1.声明 密码学是一个复杂的话题,我也不是这方面的专家.许多高校和研究机构在这方面都有长期的研究.在这篇文章里,我希望尽量使用简单易懂的方式向你展示一种安全存储Web程序密码的方法. 2."Hash"是做什么的? "Hash将一段数据(小数据或大数据)转换成一段相对短小的数据,如字符串或整数." 这是依靠单向hash函数来完成的.所谓单向是指很难(或者是实际上不可能)将其反转回来.一个常见的hash函数的例子是md5(),它流行于各种计算机语言和系统. 复制代码 代

dbrecno( )- _DBRecNo( ) 具体使用该函数? how to use _DBRecNo

问题描述 _DBRecNo( ) 具体使用该函数? how to use _DBRecNo Visual FoxPro 9.0 Language Reference _DBRecNo( ) API Library Routine long _DBRecNo(int workarea)int workarea; /* Work area. */ Remarks If no table is open in the specified work area, _DBRecNo( ) returnsa

成员函数指针与高性能的C++委托 (Member Function Pointers and the Fastest Possible C++ Delegates)

标准C++中没有真正的面向对象的函数指针.这一点对C++来说是不幸的,因为面向对象的指针(也叫做"闭包(closure)"或"委托(delegate)")在一些语言中已经证明了它宝贵的价值.在Delphi (Object Pascal)中,面向对象的函数指针是Borland可视化组建库(VCL,Visual Component Library)的基础.而在目前,C#使"委托"的概念日趋流行,这也正显示出C#这种语言的成功.在很多应用程序中,&qu

MySQL5.7 : Metadata Lock关键类及函数

在MySQL5.7.4中,对Server层的Metadata Lock做了颠覆性的修改,在正常负载下几乎完全消除了MDL子系统部分的锁开销.   基于最新的MySQL5.7.5, 我们来看看MDL锁的具体实现思路.注意在5.7.5里,MDL子系统的代码和之前版本已经发生了非常大的差异,具体表现在: 1.    针对DDL 和DML做了区分,引入了fast path的概念,对于走fast path路径的MDL锁,无需任何读写锁操作,使用类似LOCK WORD的方式来标记赋予权限 2.    对MD

编程-大神,CreateWindowExW函数该怎么写?

问题描述 大神,CreateWindowExW函数该怎么写? #includeLRESULT CALLBACK WndProc(HWNDUINTWPARAMLPARAM);int APIENTRY WinMain(HINSTANCE hInstanceHINSTANCE hPrevInstanceLPSTR lpCmdLineint nCmdShow){ WNDCLASS wndclass; HWND hWnd; MSG msg; wndclass.style=CS_HREDRAW|CS_VRE

Postgres-XC 聚合原理 以及 如何编写聚合函数

Postgres-XC聚合与PostgreSQL的聚合有一定的区别, 因为Postgres-XC的数据存储在datanode, 聚合时数据可能分布在多个datanode上. Postgres-XC支持传统的聚合方法, 聚合操作可以将数据从所有的数据节点传到coordinator节点后, 在coordinator节点进行聚合. 但是这种方法对于数据量较大的情况效率明显偏低. Postgres-XC还支持另一种聚合方式, 就是数据在各自的datanode执行, 形成结果后, 将datanode聚合的