scws中文分词组件

1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。
2. 将下载后的  php_scws.dll 放到 php 安装目录的
   extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/)。

3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc

4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中
   词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2
             http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2
             http://www.ftphp.com/scws/down/scws-dict-cht-utf8.tar.bz2

4. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目录,
   在 php.ini 的末尾加入以下几行:

[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "c:/program files/scws/etc"

5. 重开 web 服务器即可完成。

Java代码  

  1. <?php  
  2. //使用类方法分词   
  3. $so = scws_new();  
  4.     
  5. $so->set_charset('gbk');  
  6. // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件  
  7. $so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");  
  8. while ($tmp = $so->get_result()) {  
  9.     print_r($tmp);  
  10. }  
  11. $so->close();  
  12.   
  13. //使用函数提取高频词  
  14. $sh = scws_open();  
  15.    
  16. scws_set_charset($sh, 'gbk');  
  17. scws_set_dict($sh, '/path/to/dict.xdb');  
  18. scws_set_rule($sh, '/path/to/rules.ini');  
  19. $text = "我是一个中国人,我会C++语言,我也有很多T恤衣服";  
  20. scws_send_text($sh, $text);  
  21. $top = scws_get_tops($sh, 5);  
  22. print_r($top);  
  23. ?>  

  更多参考hightman论坛

Java代码  

  1. <?php  
  2. require("splitword.php");//包含分词类文件  
  3. $SpWord =new SplitWord();//创建类对象  
  4. $str="某某字符串";  
  5. $words =$SpWord->SplitRMM($str);//调用类方法  
  6. $SpWord = iconv( "gbk", "utf-8//ignore", $SpWord );  
  7. $SplitWord->Clear( );  
时间: 2024-10-18 09:24:12

scws中文分词组件的相关文章

asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取_应用技巧

比如标题是:腾讯QQ 2006 珊瑚虫集成版 v4.5b 分词后:[此资源关键词:腾讯 QQ 珊瑚虫 集成 ] 并且把关键词做成专题,可以为每个内容页面生成相关连接了 用CSW中文分词组件 下载:http://www.vgoogle.net/Product_CSW.asp 下面是我的ASP代码,比较粗浅,但实用 codecsw 得到输出的所有分词结果,用它的组建里面有个ASP文件,你一看就知道怎么得到分词结果了,这个不详细说了. 复制代码 代码如下: fcon=split(htm," "

SCWS 中文分词 php安装使用例子

今天发现一个很好用的中文分词工具.分享一下 CWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统). 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词. 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点. SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK.UTF-8 等.

中文分词组件

中英文分词组件.完全C#托管代码编写,独立开发. 技术特点 ========= 1. 识别率接近90%. 虽然和专业分词系统相比有一定的差距,但对于搜索引擎等小型分词需求而言足够了. 2. 多元歧义自动识别. 对于前后歧义有较好的识别效果. 如: 长春市长春节致词 -- 长春/市长/春节/致词/ 长春市长春药店 -- 长春市/长春/药店 3. 常用及敏感词过滤功能. 通过一个简单的属性设置就可以完成针对常用词.标点和敏感词汇的过滤.系统内置了常用无意字词和标点的过滤.当然针对文章等分词时可以屏蔽

几款开源的中文分词系统_相关技巧

以下介绍4款开源中文分词系统. 1.ICTCLAS – 全球最受欢迎的汉语分词系统         中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词:词性标注:命名实体识别:新词识别:同时支持用户词典:支持繁体中文:支持GBK.UTF-8.UTF-7.UNIC

随思:关于中文分词方法

疑问:为什么会涉及到分词方法学呢? 为什么需要确定哪些是词语,哪些不是词语呢? 为什么需要进行分词,如果不分词会是什么情况呢? 分词的根本目的是为了搜索服务的,更确切的是为快速搜索而服务的. 了解倒排索引后,就知道全文搜索需要分词了.理解一下正向索引(反向索引就是倒排索引,先产生了正向索引来搜索,后面才发明了反向索引): http://www.cnblogs.com/wangtao_20/p/3647193.html 比如要搜索词语"湖南",那么意思是搜索哪些资料中带有关键词"

11款开放中文分词引擎大比拼

来自: http://blog.csdn.net/matthewei6/article/details/50610882 在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺.对于我们每天打交道的中文来说,并没有类似英文空格的边界标志.而理解句子所包含的词语,则是理解汉语语句的第一步.汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格. 一提到自动分词,通常会遇到两种比较典型的质疑.一种质疑是来自外行人的:这件事看上去平凡之极,好像一点

Solr学习总结(八)IK 中文分词的配置和使用

最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧.   有的时候,用户搜索的关键字,可能是一句话,不是很规范.所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词.   目前有很多优秀的中文分词组件.本篇只以  IKAnalyzer 分词为例,讲解如何在 solr  中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易.具

开源php中文分词系统SCWS安装和使用实例_php实例

一.SCWS简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统).这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词. 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点.SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK.UTF-8 等.此外还提供了 PHP 扩展模

centos6.5中wdcp安装中文分词scws插件教程

测试环境: OS:centos6.5 WDCP:wdcp_v2.5.10(20140213) PHP:5.3.27 环境介绍完毕,下面是安装步骤:  代码如下 复制代码  cd /root #已root进入root目录 wget http://www.xunsearch.com/scws/down/scws-1.2.2.tar.bz2 #下载源码 tar xvjf scws-1.2.2.tar.bz2 #解压源码 cd scws-1.2.2 #进入源码目录 ./configure --prefi