mysql全文搜索与中文全文搜索方法

mysql自带的功能。

MySQL全文搜索的语法

代码如下

复制代码

SELECT fields list FROM table WHERE MATCH (

col1

,

col2

,...) AGAINST (

expr

[

search_modifier

])

search_modifier:

{ IN BOOLEAN MODE | WITH QUERY EXPANSION }

例如：

代码如下	复制代码
select *　from articles where match(title, body) against(‘北京奥运’)在字段“title,body”上全文搜索“北京奥运”

注意，MySQL的全文搜索索引只能建立在Myisam引擎上。

首先用下面表举例：

代码如下	复制代码
CREATE TABLE articles ( id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY, title VARCHAR(200), body TEXT, FULLTEXT (title,body) ) ENGINE=MyISAM DEFAULT CHARSET=utf8;

MySQL使用Match()和Against()执行全文搜索，举例如下：

代码如下	复制代码
SELECT body FROM articles WHERE Match(body) Against('www.111cn.net');

如上Match是正对指定的列进行搜索，Against('www.phpddt.com')是正对指定词进行搜索

另外：

使用查询扩展WITH QUERY EXPANSION，将会搜索出更多结果（mysql会将匹配的行中有用的词再次进行搜索，这样搜索出来的结果更多，但可能不是你想要的）；

使用布尔文本搜索IN BOOLEAN MODE,类似我们平时使用seo/seo.html" target="_blank">搜索引擎时用到的的语法：逻辑与、逻辑或、逻辑非等.支持的布尔操作符如下：

全文布尔操作符:
--------------------------------------------------------------------------------------------------------------
|操作符                        |      说明                                                                                  |
--------------------------------------------------------------------------------------------------------------
|    +                       |包含，词必须存在
|     －                      |排除，词必须不出现
|     >                      |包含，而且增加等级值
|     <                      |包含，且减少等级值
|     ()                      |把词组成子表达式(允许这些子表达式作为一个组被包含，排除，排列等)
|      ~                     |取消一个词的排序值
|     *                       |词尾的通配符
|     " "                     |定义一个短语(与单个词的列表不一样，它匹配整个短语以便包含或排除这个短语)
----------------------------------------------------------------------------------------------------------------

使用方法如下：

代码如下

复制代码

SELECT * FROM articles WHERE MATCH (title,body)

AGAINST ('+apple -banana' IN BOOLEAN MODE);

+ 表示AND，即必须包含。- 表示NOT，即不包含。

代码如下

复制代码

SELECT * FROM articles WHERE MATCH (title,body)

AGAINST ('apple banana' IN BOOLEAN MODE);

apple和banana之间是空格，空格表示OR，即至少包含apple、banana中的一个。

代码如下

复制代码

SELECT * FROM articles WHERE MATCH (title,body)

AGAINST ('+apple banana' IN BOOLEAN MODE);

必须包含apple，但是如果同时也包含banana则会获得更高的权重。

代码如下

复制代码

SELECT * FROM articles WHERE MATCH (title,body)

AGAINST ('+apple ~banana' IN BOOLEAN MODE);

~ 是我们熟悉的异或运算符。返回的记录必须包含apple，但是如果同时也包含banana会降低权重。但是它没有 +apple -banana 严格，因为后者如果包含banana压根就不返回。

代码如下

复制代码

SELECT * FROM articles WHERE MATCH (title,body)

AGAINST ('+apple +(>banana <orange)' IN BOOLEAN MODE);

返回同时包含apple和banana或者同时包含apple和orange的记录。但是同时包含apple和banana的记录的权重高于同时包含apple和orange的记录。

MySQL对中文全文索引无法正确支持,下面再介绍一个插件，利用mysqlcft 实现中文全文搜索。

Mysqlcft 是为 MySQL 5.1.22 ~ 5.1.25 RC 开发的中文全文索引插件，用于解决MySQL无法正确支持中文全文检索的问题

1、优点：

•精准度很高：采用自创的“三字节交叉切分算法”，对中文语句进行分割，无中文分词词库，搜索精准度远比中文分词算法高，能达到LIKE '%...%"的准确率。
•查询速度快：查询速度比LIKE '%...%"搜索快3～50倍，文章末尾有测试结果；
•标准插件式：以MySQL 5.1全文索引的标准插件形式开发，不修改MySQL源代码，不影响MySQL的其他功能，可快速跟进MySQL新版本；
•支持版本多：支持所有的MySQL 5.1 Release Candidate版本，即MySQL 5.1.22 RC～最新的MySQL 5.1.25 RC；
•支持字符集：支持包括GBK、GB2312、UTF-8、Latin1、BIG5在内的MySQL字符集（其他字符集没有测试过）；
•系统兼容好：具有i386和x86_64两个版本，支持32位（i386）和64位（x86_64）CPU及Linux系统；
•适合分布式：非常适合MySQL Slave分布式系统架构，无词库维护成本，不存在词库同步问题。
2、缺点：

•mysqlcft中文全文索引只适用于MyISAM表，因为MySQL只支持对MyISAM表建立FULLTEXT索引；
•MySQL不能静态编译安装，否则无法安装mysqlcft插件；
•基于“三字节交叉切分算法”的索引文件会比海量、ft-hightman等基于“中文分词算法”的索引文件稍大，但不是大很多。
根据我的测试，mysqlcft全文索引的.MYI索引文件是.MYD数据文件的2～6倍

插件下载 https://code.google.com/p/mysqlcft/

时间： 2024-09-29 21:02:06

mysql全文搜索与中文全文搜索方法的相关文章

PHP连接远程MYSQL和MYSQL5.1中文乱码处理方法

本文描述了我在开发我的Blog的过程中所遇到的一些问题以及解决他们的方法.因为本网站采用的是一个免费的远程MySql数据库db4free.net,而且这个数据库是5.1的版本,所以在开发过程中出现了许多问题.故在此发表,以便大家参考. 一.连接远程数据库的方法对于PHP连接远程MySql数据库,通常要使用如下的语句: 以下为引用的内容: var $serverName = 'db4free.net:3306';//数据库服务器 var $dbName =

mysql导入导出数据中文乱码解决方法小结_Mysql

linux系统中 linux默认的是utf8编码,而windows是gbk编码,所以会出现上面的乱码问题. 解决mysql导入导出数据乱码问题首先要做的是要确定你导出数据的编码格式,使用mysqldump的时候需要加上--default-character-set=utf8, 例如下面的代码: 复制代码代码如下: mysqldump -uroot -p --default-character-set=utf8 dbname tablename > bak.sql 那么导入数据的时候也要使用-

mysql导入导出数据中文乱码解决方法总结

linux系统中 linux默认的是utf8编码,而windows是gbk编码,所以会出现上面的乱码问题. 解决mysql导入导出数据乱码问题首先要做的是要确定你导出数据的编码格式,使用mysqldump的时候需要加上--default-character-set=utf8, 例如下面的代码: 代码如下复制代码 mysqldump -uroot -p --default-character-set=utf8 dbname tablename > bak.sql 那么导入数据

mysql中文全文搜索之学习笔记

mysql中模糊搜索关键字可以用like关键字,它可以查询出包涵关键字的字段,但当数据量变大时(比如超过百万条),由于不能使用索引,全表扫描会导致性能很差.那怎么能查询出包涵关键字的内容呢?这时可以采用mysql的全文搜索.但有个前提:需要把进行全文搜索的字段添加fulltext索引,并且只能建立在Myisam引擎上.然后用如match(字段1[,字段2,字段3-]) against('关键字1 关键字2')这样的方式搜索,这样可以查询出某些字段中包涵某些关键字的信息. 另外,用like匹配的是

MySQL 4.1.0 中文参考手册 --- 6.8 MySQL 全文搜索

mysql|参考|参考手册|全文搜索|中文 MySQL 4.1.0 中文参考手册 --- 犬犬(心帆)翻译 MySQL Reference Manual for version 4.1.0-alpha. 6.8 MySQL 全文搜索到 3.23.23 时,MySQL 开始支持全文索引和搜索.全文索引在 MySQL 中是一个 FULLTEXT 类型索引.FULLTEXT 索引用于 MyISAM 表,可以在 CREATE TABLE 时或之后使用 ALTER TABLE 或 CREATE INDE

使用 Microsoft SQL Server 2000 的全文搜索功能构建 Web 搜索应用程序

server|web|程序|全文搜索使用 Microsoft SQL Server 2000 的全文搜索功能构建 Web 搜索应用程序 Andrew B. CenciniMicrosoft Corporation 2002年12月适用于: Microsoft SQL Server 2000摘要:学习如何充分利用 SQL Server 2000 的全文搜索功能.本文包含有关实现最大吞吐率和最佳性能的几点提示和技巧. 目录简介全文搜索功能简介配置全文搜索功能全文查询排位和优化其他

MySQL中使用Sphinx实现多线程搜索的方法

这篇文章主要介绍了在MySQL中使用Sphinx实现多线程搜索的方法,修改Sphinx的搜索引擎配置即可,需要的朋友可以参考下 MySQL.Sphinx及许多数据库和搜索引擎中的查询是单线程的.比如说,在一台32个CPU核心.16个磁盘的R910服务器上执行一个查询,它最多只会用到一个核心和一个磁盘.没错,只会使用一个. 如果查询是CPU密集型作业,那么会使用大约3%的整机CPU能力(以上述32核机器为例).如果是磁盘密集型,则大约会使用6%的整机IO能力(也是与上例同样的配置,16个磁盘组

bbmao的神秘配方：打破中文聚类搜索的低迷

尽管元搜索技术在国外搜索市场早已存在但经过朱明谦"改良"的中文聚类搜索仍然打破了中文搜索市场创新乏力的低迷境况采访·撰文于焱摄影楼晓宁 3月的一天,朱明谦和往常一样早早来到办公室,打开电脑,登录bbmao主页,收看用户反馈. 十五分钟后,他停下手中的工作,为自己泡上一杯咖啡,站起来眺望远处.窗外是车水马龙的北三环,柳树枝头已经泛起新绿,同事们正陆续走进公司,员工已从最初的几个人增加到十六人,他和联合创始人李昌日不得不搬进一间小一点儿的办公室,把大办公室腾出来.虽然办公环境很挤

Yii2实现同时搜索多个字段的方法_php实例

本文实例讲述了Yii2实现同时搜索多个字段的方法.分享给大家供大家参考,具体如下: Yii2中搜索字段是用的andFilterWhere这个方法,用它可以搜索一个一段. 如果是搜索多个字段的话 ,比如搜索文章标题和文章内容是是否包含需要搜索的关键词,因为他们两个的关系是or,所以就要用到orFilterWhere这个方法下面就是全部的代码 public function actionIndex() { $key =Yii::$app->request->post("key"

猜你喜欢

机器学习之——单变量线性回归

线性回归线性回归(Linear Regression)作为Machine Learning 整个课程的切入例子确实有独到的地方,以简单的例子为出发点,将学习任务的主干串起来.问题的建模可以简单如下图 ...

一个用来统计相同姓名人数的SQl语句

sql语句查询表结构是这样: ID 姓名性别 1 张三男 2 王四男 3 丽丽女 4 张三男 5 赵柳男 6 高洁男 7 王四女 8 高洁女 9 张三女怎么能用一条SQL语句查 ...

Flash基础理论课第二章 ActionScript 3.0 动画基础Ⅱ

返回"Flash基础理论课 - 目录" 动画事件我们希望能够使用代码让物体动起来,并允许屏幕反复地刷新.前面看过一个使用enterFrame影片事件的示例.现在把这种方法运用到 ...

浏览器打开网页很慢如何提高ie浏览器的网页加载打开速度

浏览器打开网页很慢如何提高ie浏览器的网页加载打开速度一.ie浏览器设置参数 1.在xp系统下载的IE浏览器窗口的菜单栏单击"工具"-"Inter ...

利用CSS3实现文本框的清除按钮相关的一些效果

新技能传授-哔哔哔哔 search类型搜索框,设计师常常会设计一个叉叉图标,表示用户点之久可以清除输入的内容.比方说这个: 这是不错的体验! 当前现代浏览器中,Chrome浏览器下type=searc ...

Photoshop合成森林中正在漫步的打伞女孩

先看看效果图 Step 1 在1200 × 1000像素大小创建一个新的文件,并用白色填充它(你可以用你自己的大小和颜色) .使用移动工具(V)拖动森林蓄积到你的白色帆布,如下图所示 Step 2 ...

如何为Word2003文档设置文字水印

通过为Word2003文档设置水印,可以使原本单调Word文档根据阅读性,并可以实现一定意义的提示(例如希望突出所编辑Word文档的版权或重要程度).用户可以为Word文档设置文字水印或图片水印,以设 ...

Mac虚拟机上怎么安装Windows10正式版

Mac上安装Windows 10正式版具体步骤: 1.在Microsoft商店下载Windows 10正式版. 2.启动Parallels Desktop,在菜单中选择"文件" ...

笔记本电脑怎么截图？

不论是在电脑还是手机中,截图我们经常都会用到,那么笔记本怎么截图啊?想写一篇笔记本电脑教程,但不知道笔记本如何截图.对于电脑高手来说,笔记本截图可谓小菜一碟,不过小白朋友,难免不懂.下面百事网小编 ...

js类中获取外部函数名的方法_javascript技巧

比如我们要在一个类中设定一个方法可以根据调入一个方法保存在类变量中,等需要的时候可以通过访问类变量来得到. 通常如果我们生成一个实例如:var temp=new TopnetTree(); 如果我们 ...

C/C++查看变量大小和数组长度

这里总结一下C/C++中查看变量大小,数组长度等的方法. 本文代码在windows 8.1下使用Dev-c编写,测试. strlen函数,查看字符串长度: 1 //头文件 2 #include < ...

咕咚运动数据存储实践

咕咚APP--综合运动社交平台咕咚APP致力于打造运动社交综合型平台,目前咕咚APP所涵盖人群包括:跑步.健走.骑行.游泳.滑雪.篮球.足球等多个领域,并为其提供相应功能进行承载. 咕咚 ...

《Adobe InDesign CC经典教程》—第1课1.2节观察熟悉工作区

1.2 观察熟悉工作区 Adobe InDesign CC经典教程 InDesign工作区包括了用户第一次打开或创建一个文档看到的一切: 菜单栏应用栏控制面板工具面板其他面板文档窗口粘贴板 ...

link中运算符重载必须依附于类型这个怎么理解？什么是运算符重载的类型？

问题描述 link中运算符重载必须依附于类型这个怎么理解?什么是运算符重载的类型? link中运算符重载必须依附于类型这个怎么理解?什么是运算符重载的类型? 解决方案就是说,C++允许在类的定义外面 ...

ae gp工具-Arcengine 点数据按输入的shp面要素裁剪输出

问题描述 Arcengine 点数据按输入的shp面要素裁剪输出使用gp工具clip能实现这一功能,但是输出了原数据的所有字段,在使用时怎么设置才能使得输出指定的字段

Java网络教程之Socket

原文地址译者:贾毅当我们想要在Java中使用TCP/IP通过网络连接到服务器时,就需要创建java.net.Socket对象并连接到服务器.假如希望使用Java NIO,也可以创建Java NI ...

Xcode中iOS模拟器程序中的plist路径

Xcode6.4里写了个简单的iOS程序在模拟器中跑. 其中用到了NSUserDefaults来保存属性文件plist,那么这个文件实际路径在哪里呢?在网上搜了一下,发现几种说法(*表示当前用户名): ...

Facebook图片存储架构的学习

分享照片是http://www.aliyun.com/zixun/aggregation/1560.html">Facebook上最流行的的功能之一.截至目前,用户已经上传超过15亿张 ...

mysql-sql 根据条件update数据

问题描述 sql 根据条件update数据有两个表分别为tb_child(child_id,name),tb_cdc_child(child_id,username)tb_child的数据为(t1, ...

android-setOnDismissListener有异常

问题描述 setOnDismissListener有异常在对话中使用setOnDismissListener 时获得一个NoSuchMethodException 异常.Android设备版本4.1 ...

新浪CEO曹国伟：微博与微信竞争最激烈时期已过去

新浪董事长兼CEO.微博董事长曹国伟今日在绿公司年会上表示,微博与微信竞争最激烈的时期已经过去.微博与微信的两个社交媒体属性完全不一样. 曹国伟说,微信的核心是通讯需求,是熟人间的社交,用户多使用频率 ...

关于masterpage 提交数据,无法刷新,必须手工刷新

问题描述 a页面,操作一个添加成功后,自动跳转到b页面,采用:Response.Write("<scriptlanguage=javascript>window.location ...

亚马逊加州增设库房推进当日递送服务

亚马逊加州增设库房据国外媒体报道,为了进一步提升递送服务质量,亚马逊计划在美国修建开多处库房,旨在把为期两天的递送服务缩短到一天.目前,加州圣贝纳迪诺的一处库房已经开始动工.虽然图片上看起来只是一片 ...

李彦宏你敢保证你员工的行为吗

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅 "媒体所报道的不给钱就封 ...

“正信小宝”养老篇：坐享绿色稳定收益

伴随分布式光伏发电系统的蓬勃发展,以光伏扶贫.光伏养老等为主流的新兴致富模式正逐渐受到越来越多人的追捧.其中,就光伏养老模式而言,一般光伏电站的寿命长达25年,成本回收周期为5-6年,老年人仅需一次性 ...

Android控件Chronometer定时器的实现方法_Android

Chronometer是一个简单的定时器,你可以给它一个开始时间,并以此定时,或者如果你不给它一个开始时间,它将会使用你的时间通话开始.默认情况下它会显示在当前定时器的值的形式"分:秒&qu ...

Python中使用语句导入模块或包的机制研究_python

这篇文章讨论了Python的from <module> import *和from <package> import *,它们怎么执行以及为什么使用这种语法(也许)是一个坏主意 ...

如何移除WordPress仪表盘(dashboard)页面和自带的小工具

当然,这些小工具都是可以移除的.对性能上有多少帮助暂时不清楚,但是对一些性能较差的服务器或许有一定的帮助性.有一些喜欢简洁的朋友也不喜欢隐藏而是直接移除.下面就说说移除WordPress仪表盘(das ...

PHP 正则表达式常用函数_php实例

1．preg_match() 函数原型:int preg_match (string $pattern, string $content [, array $matches]) preg_match ...

讲解Oracle数据库中的数据字典及相关SQL查询用法_oracle

Oracle数据字典概述数据库是数据的集合,数据库维护和管理这用户的数据,那么这些用户数据表都存在哪里,用户的信息是怎样的,存储这些用户的数据的路径在哪里,这些信息不属于用户的信息,却是数据库维 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.028 s.