Python 中文分词库 Yaha

问题描述

"哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha基本功能:精确模式,将句子切成最合理的词。全模式,所有的可能词都被切成词,不消除歧义。搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。备选路径,可生成最好的多条切词路径,可在此基础上根据其它信息得到更精确的分词模式。可用**件:正则表达式**件人名前缀**件地名后缀**件定制功能。分词过程产生4种阶段,每个阶段都可以加入个人的定制。附加功能:新词学习功能。通过输入大段文字,学习到此内容产生的新老词语。获取大段文本的关键字。获取大段文本的摘要。支持用户自定义词典Algorithm核心是基于查找句子的最大概率路径来进行分词。保证效率的基础上,对分词的各个阶段进行定义,方便用户添加属于自己的分词方法(默认有正则,前缀名字与后缀地名)。用户可自定义使用动态规划或Dijdstra算法得到最优的一条或多条路径,再次可根据词性(中科大ictclas的作法)等其它信息得获得最优路径。使用“最大熵”算法来实现对大文本的新词发现能力,很适合使用它来创建自定义词典,或在SNS等场合进行数据挖掘的工作。相比已存在的结巴分词,去掉了很消耗内存的Trie树结构,以及新词发现能力并不强的HMM模型(未来此模型可能当成一个备选**件加入到此模块)。目前状态以上提到的核心部分以及基础功能都已得到实现。不过一些细节正在实现当中,目前还未发布版本。

时间: 2024-09-20 05:36:54

Python 中文分词库 Yaha的相关文章

Apache Lucene 5.x 集成中文分词库 IKAnalyzer

Apache Lucene 5.x 集成中文分词库 IKAnalyzer 前面写过 Apache Lucene 5.x版本 示例,为了支持中文分词,我们可以使用中文分词库 IKAnalyzer. 由于IKAnalyzer使用的是4.x版本的Analyzer接口,该接口和5.x版本不兼容,因此,如果想要在5.x版本中使用IKAnalyzer,我们还需要自己来实现5.x版本的接口. 通过看源码,发现需要修改两个接口的类. 第一个是Tokenizer接口,我们写一个IKTokenizer5x: /**

布同 Python中文问题解决方法(总结了多位前人经验,初学者必看)_python

因为Python是自带文档,可以通过help函数来查询每一个系统函数的用法解释说明.一般来说,关键的使用方法和注意点在这个系统的文档中都说的很清楚.我试图在网上找过系统文档的中文版的函数功能解释,但是都没有找到,所以我决定将就使用英文版的系统自带的函数解释来学习. 如果你想进行Tkinter和wxPython编程,想要知道一般的widget的使用方法和属性介绍,英文又不是太好的话,我推荐你,你可以去看看<Python与Tkinter编程>这本书,里面392页到538页的附录B和附录C选择了常用

python-怎么自动做支持Python,中文aiml,小白一个

问题描述 怎么自动做支持Python,中文aiml,小白一个

python 中文插入mysql报错

问题描述 python 中文插入mysql报错 哪位大神帮忙看看这个是什么问题? python 中文插入mysql报错: content= [1165630L, '13940546367', 361L, None, Decimal('449.00'), Decimal('0.00'), 'xd5xd4xd4xa8xd5', 'xc1xc9xc4xfexcaxa1', 'xc9xf2xd1xf4xcaxd0', 'xbaxcdxc6xbdxc7xf8', 'xb6xfexbbxb7xd2xd4xc

python 中文分词程序实例

以我的理解,最简单的分词程序,应该是先将中文文本切成最小的单位--汉字--再从词典里找词,将这些字按照最左最长原则(与正则精神暗合),合并为以词为单位的集合.这样的应该是最快的,只按照给定的数据划分合并即可,不必考虑语法元素的权重(词性:名动形数量代等等,语法:主谓宾定状补),以及上下文的出现次数. 关于源文本的切分,就参照<统计汉字/英文单词数>一文的思路,使用正则表达式r"(?x) (?: [w-]+  | [x80-xff]{3} )")来匹配即可. 关于词典,我使用

Python中文字符串截取问题

web应用难免会截取字符串的需求,Python中截取英文很容易,但是截取utf-8的中文机会截取一半导致一些不是乱码的乱码.其实utf8截取很简单,这里记下来分享给大家 先来看个例子: ? 1 2 3 4 #-*- coding:utf8 -*- s = u'中文截取' s.decode('utf8')[0:3].encode('utf8') # 结果u'中文截取 延伸阅读: UTF-8中的汉字占用多少字节? 占2个字节的:〇 占3个字节的:基本等同于GBK,含21000多个汉字 占4个字节的:

Python 中文注释报错解决方案

今天在学习python的时候注释了一条中文,结果报错: File "test.py", line 3 SyntaxError: Non-ASCII character '\xe8' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details 大致意思是说,文件 'test.py' 第三行有问题,是语法错误,并没有ASCII字符,

python 中文乱码问题深入分析_python

在本文中,以'哈'来解释作示例解释所有的问题,"哈"的各种编码如下: 1. UNICODE (UTF8-16),C854: 2. UTF-8,E59388: 3. GBK,B9FE. 一.python中的str和unicode 一直以来,python中的中文编码就是一个极为头大的问题,经常抛出编码转换的异常,python中的str和unicode到底是一个什么东西呢? 在python中提到unicode,一般指的是unicode对象,例如'哈哈'的unicode对象为 u'\u54c8

python 中文乱码解决方法

比如我从网上下载一些信息或写个电子邮件程序下载到本地,以记事本(txt) 形式写入并保存在本地计算机,为什么看到只是英文和乱码的?该怎样做呢? 答 乱码原因: 因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串当然是乱码了. 解决方法: 在控制台打印的地方用一个转码就ok了,打印的时候这么写: print myname.decode('utf-8').encode('gb