自然语言处理工具 nltk 安装使用

github 地址:https://github.com/nltk/nltk/

官方地址:http://www.nltk.org/

中文文档:http://download.csdn.net/detail/u013378306/9756747

安装及测试

  1. Install NLTK: run sudo pip install -U nltk
  2. Install Numpy (optional): run sudo pip install -U numpy
  3. Test installation: run python then type import nltk

Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。

在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。

下载数据文件

>>>import nltk
>>>nltk.download()

 

总的数据有300M左右,下载很慢,

提供下载地址:https://pan.baidu.com/s/1nvfR485

nltk 数据文件结构

nltk_data
├── chunkers
│   └── maxent_ne_chunker.zip
├── corpora
│   ├── abc.zip
│   ├── alpino.zip
│   ├── biocreative_ppi.zip
│   ├── brown_tei.zip
│   ├── brown.zip
│   ├── cess_cat.zip
│   ├── cess_esp.zip
│   ├── chat80.zip
│   ├── city_database.zip
│   ├── cmudict.zip
│   ├── comtrans.zip
│   ├── conll2000.zip
│   ├── conll2002.zip
│   ├── conll2007.zip
│   ├── dependency_treebank.zip
│   ├── europarl_raw.zip
│   ├── floresta.zip
│   ├── gazetteers.zip
│   ├── genesis.zip
│   ├── gutenberg.zip
│   ├── ieer.zip
│   ├── inaugural.zip
│   ├── indian.zip
│   ├── jeita.zip
│   ├── kimmo.zip
│   ├── knbc.zip
│   ├── langid.zip
│   ├── lin_thesaurus.zip
│   ├── machado.zip
│   ├── mac_morpho.zip
│   ├── movie_reviews.zip
│   ├── names.zip
│   ├── nombank.1.0.zip
│   ├── nps_chat.zip
│   ├── oanc_masc.zip
│   ├── paradigms.zip
│   ├── pil.zip
│   ├── pl196x.zip
│   ├── ppattach.zip
│   ├── problem_reports.zip
│   ├── propbank.zip
│   ├── ptb.zip
│   ├── qc.zip
│   ├── reuters.zip
│   ├── rte.zip
│   ├── semcor.zip
│   ├── senseval.zip
│   ├── shakespeare.zip
│   ├── sinica_treebank.zip
│   ├── smultron.zip
│   ├── state_union.zip
│   ├── stopwords.zip
│   ├── swadesh.zip
│   ├── switchboard.zip
│   ├── timit.zip
│   ├── toolbox.zip
│   ├── treebank.zip
│   ├── udhr2.zip
│   ├── udhr.zip
│   ├── unicode_samples.zip
│   ├── verbnet.zip
│   ├── webtext.zip
│   ├── wordnet_ic.zip
│   ├── wordnet.zip
│   ├── words.zip
│   └── ycoe.zip
├── grammars
│   ├── basque_grammars.zip
│   ├── book_grammars.zip
│   ├── large_grammars.zip
│   ├── sample_grammars.zip
│   └── spanish_grammars.zip
├── help
│   └── tagsets.zip
├── stemmers
│   └── rslp.zip
├── taggers
│   ├── averaged_perceptron_tagger.zip
│   ├── hmm_treebank_pos_tagger.zip
│   └── maxent_treebank_pos_tagger.zip
└── tokenizers
    └── punkt.zip

数据文件存放地址(linux下的搜索路径)

 - '/var/www/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'

主要功能

使用

import nltk
from nltk.corpus import sinica_treebank

print(sinica_treebank.words())

 结果:['一', '友情', '嘉珍', '和', '我', '住在', '同一條', '巷子', '我們', ...]

(1)来看一下NLTK中文语法树。

>>>sinica_treebank.parsed_sents()[33].draw()

 Python 万岁!!!

(2)搜索中文文本


1

2

3

4

5

import nltk

from nltk.corpus import sinica_treebank

 

sinica_text=nltk.Text(sinica_treebank.words())

print(sinica_text.concordance('我'))

 结果:

 我 住在 同一條 巷子 我們 是 鄰居 也 是 同班 同學 我們 常常 一起 上
居 也 是 同班 同學 我們 常常 一起 上學 一起 回家 有一天 上學 時 我 到 她 家 等候 按 了 門鈴 卻 沒有 任何 動靜 正當 我 想 離開 時
天 上學 時 我 到 她 家 等候 按 了 門鈴 卻 沒有 任何 動靜 正當 我 想 離開 時 門 內 突然 傳來 急促 的 腳步聲 嘉珍 打開 了 門 大聲
 突然 傳來 急促 的 腳步聲 嘉珍 打開 了 門 大聲 的 叫 著 快 點 我 媽媽 暈倒 了 嘉珍 抓起 我 的 手 急忙 往 屋 裡 跑 進入 房間 看
嘉珍 打開 了 門 大聲 的 叫 著 快 點 我 媽媽 暈倒 了 嘉珍 抓起 我 的 手 急忙 往 屋 裡 跑 進入 房間 看到 她 的 媽媽 趴 在 地 上
 她 的 媽媽 趴 在 地 上 臉色 蒼白 得 像 紙 一樣 這種 情景 把 我 嚇壞 了 怎麼辦 嘉珍 不停 的 哭泣 聲音 有些 顫抖 我 的 腦海 中
這種 情景 把 我 嚇壞 了 怎麼辦 嘉珍 不停 的 哭泣 聲音 有些 顫抖 我 的 腦海 中 頓時 一片 空白 不 曉得 怎麼辦 才 好 過 了 一會兒 我
我 的 腦海 中 頓時 一片 空白 不 曉得 怎麼辦 才 好 過 了 一會兒 我 才 問 她 你 爸爸 呢 他 出差 了 嘉珍 擦 著 眼淚 我 握住 她 的
 了 一會兒 我 才 問 她 你 爸爸 呢 他 出差 了 嘉珍 擦 著 眼淚 我 握住 她 的 雙手 她 的 手 又 冰 又 冷 這時 有個 念頭 突然 閃過
握住 她 的 雙手 她 的 手 又 冰 又 冷 這時 有個 念頭 突然 閃過 我 的 眼前 我 幫 她 撥 了 一一九 請 救護車 來 而且 拍拍 她 的 背
雙手 她 的 手 又 冰 又 冷 這時 有個 念頭 突然 閃過 我 的 眼前 我 幫 她 撥 了 一一九 請 救護車 來 而且 拍拍 她 的 背 安慰 她 不
撥 了 一一九 請 救護車 來 而且 拍拍 她 的 背 安慰 她 不要 著急 我 會 陪 你 的 不久 救護車 停 在 她 家 門口 醫護 人員 很 快 的
 醫護 人員 很 快 的 將 她 的 媽媽 抬上 救護車 嘉珍 上車 前 對 我 說 謝謝 你 的 幫忙 我 握 著 她 的 手 說 不用 謝 我 因為 我們
 她 的 媽媽 抬上 救護車 嘉珍 上車 前 對 我 說 謝謝 你 的 幫忙 我 握 著 她 的 手 說 不用 謝 我 因為 我們 是 好朋友 二 無私 的
車 前 對 我 說 謝謝 你 的 幫忙 我 握 著 她 的 手 說 不用 謝 我 因為 我們 是 好朋友 二 無私 的 愛 愛 像 火紅 的 太陽 散發 光
正 為了 缺乏 旅費 而 發愁 的 時候 員外 來 找 他 並且 對 他 說 我 看 你 悶悶不樂 是不是 進京 趕考 的 旅費 不 夠 這裡 有 一些 銀子
物 和 銀子 向 員外 道謝 時 員外 握 著 他 的 手 說 你 不用 還 我 了 我 只是 盡 一份 心力 而已 以後 有 機會 希望 你 也 能夠 幫助
銀子 向 員外 道謝 時 員外 握 著 他 的 手 說 你 不用 還 我 了 我 只是 盡 一份 心力 而已 以後 有 機會 希望 你 也 能夠 幫助 別人
身 趕考 吧 書生 用 顫抖 的 手 接過 銀子 含 著 眼淚 說 謝謝 您 我 不 知道 要 怎麼 來 報答 您 江 巡撫 說 你 不必 謝 我 也 不必
 謝謝 您 我 不 知道 要 怎麼 來 報答 您 江 巡撫 說 你 不必 謝 我 也 不必 回報 我 四 快樂 的 閱讀課 上 國語課 的 時候 老師 叫 我
知道 要 怎麼 來 報答 您 江 巡撫 說 你 不必 謝 我 也 不必 回報 我 四 快樂 的 閱讀課 上 國語課 的 時候 老師 叫 我們 這一組 做 讀書
 閱讀課 上 國語課 的 時候 老師 叫 我們 這一組 做 讀書 心得 報告 我 第一個 站起來 發言 我們 閱讀 的 好 書 是 小 王子 這 是 法國人
 小 王子 告訴 他 在 星球 旅行 的 經過 兩 人 成為 知心 的 朋友 我 說完 之後 組長 站起來 補充 說 小 王子 是 一個 可愛 的 人 他 在
星 上 每天 照顧 會 說話 的 玫瑰花 、 清理 火山灰 而且 欣賞 落日 我 喜歡 這種 自由自在 的 生活 明珠 說 這本 書 最 精采 的 部分 遇到
 的 商人 等 小 王子 不 喜歡 自大 的 人 也 不 喜歡 虛偽 的 人 我 覺得 小 王子 很 正直 最後 阿平 說 這本 書 中 有 許多 值得 思考
时间: 2024-10-23 04:39:10

自然语言处理工具 nltk 安装使用的相关文章

PHP性能分析工具XHProf安装使用教程

  这篇文章主要介绍了PHP性能分析工具XHProf安装使用教程,本文给出详细安装步骤和配置方法以及使用实例,需要的朋友可以参考下 HProf是facebook开源出来的一个php轻量级的性能分析工具,跟Xdebug类似,但性能开销更低,还可以用在生产环境中,也可以由程序开关来控制是否进行profile.基于浏览 器的性能分析用户界面能更容易查看,或是与同行们分享成果.也能绘制调用关系图.在数据收集阶段,它记录调用次数的追踪和包容性的指标弧在动态callgraph的一个程序. 它独有的数据计算的

win8.1系统u盘启动盘制作工具制作安装教程

  win8.1系统u盘启动盘制作工具制作安装教程: 1.将U盘插入USB接口,系统识别后自动安装U盘驱动程序. 2.打开UltraISO软件,在菜单栏选择"文件"--"打开",找到我们的Win8系统安装镜像; 3.点击菜单栏下的"启动"--"写入硬盘映像": 4.在弹出的对话框中,我们可以看到已识别的磁盘驱动器(这里是U盘),在刻录之前我们先对U盘进行格式化操作.点击格式化,默认文件系统格式是FAT32,勾选快速格式化后点击

U速启U盘启动盘制作工具的安装教程

第一步,首先下载U速启. 第二步,我们打开我们下载的U速启压缩包,安装U速启U盘启动盘制作工具.这个USQ.rar就是我们刚才下载的U速启安装文件.现在我们进行安装!首先查看一下软件的安装说明.然后我们双击"U速启 V1.1.4.exe"打开进行安装. 在目标文件夹那里设置一下U速启的安装路径,我们这里默认即可!点安装之后就安装完成了.接着我们打开桌面就可以看到刚才我们安装的U速启U盘启动盘制作工具.另外不了解的可以看一下使用说明!至此,U速启U盘启动盘制作工具已经安装完成. 第三步,

源代码管理工具TFS2013安装与使用

原文:源代码管理工具TFS2013安装与使用       最近公司新开发一个项目要用微软的TFS2013进行项目的源代码管理,以前只是用过SVN,从来没有用过TFS,所以在网上百度.谷歌了好一阵子来查看怎么安装和配置,还好花了一天时间总算是初步的搞定了,下面就简单介绍一下安装和配置过程.      一.安装和配置过程介绍            要安装TFS2013当然要先进行下载了,可以在下面的地址下载:http://www.microsoft.com/zh-cn/download/detail

简化Kubernetes应用部署工具-Helm安装

本文讲的是简化Kubernetes应用部署工具-Helm安装[编者的话]微服务和容器化给复杂应用部署与管理带来了极大的挑战.Helm是目前Kubernetes服务编排领域的唯一开源子项目,做为Kubernetes应用的一个包管理工具,可理解为Kubernetes的apt-get / yum,由Deis 公司发起,该公司已经被微软收购.Helm通过软件打包的形式,支持发布的版本管理和控制,很大程度上简化了Kubernetes应用部署和管理的复杂性. Helm把Kubernetes资源(比如depl

Mac下Supervisor进程监控管理工具的安装与配置_python

Supervisor 是一个类 unix 操作系统下的进程监控管理工具. 安装 Supervisor Supervisor 是由 Python 写成,可用 Python 的包安装管理工具 pip(Python Package Index) 直接安装: 复制代码 代码如下: sudo pip install supervisor 配置 Supervisor Supervisor 的配置文件命名为 supervisord.conf,它为 supervisord(Supervisor 的主服务命令)

MYSQL压力测试工具sysbench安装测试详解

如果评测一台mysql数据库的压力,可以使用sysbench来测试, 具体的操作出下,先安装sysbench工具,安装操作如下: 安装环境 CentOS release 5.4 (Final) MySQL 5.1.40 MySQL_HOME=/usr/local/mysql/ Sysbench 0.4.12 安装步骤: 1. 去http://sourceforge.net/projects/sysbench/下载最新版本的sysbench 0.4.12 2. 解压缩sysbench-0.4.12

Solaris8安装内存分析工具memtool安装使用文档

前言 昨天看了一本<The Solaris Memory System>的书,里面写了很多关于内存监控和内存优化方面的东西,还介绍了一个关于内存监控的软件,总体感觉这个工具对solaris系统的内存的分析比较细,对我们解决内存方面瓶颈时,应该有很大的帮助. 本人声明如需转载请保留如下信息: 作者:SOLARIS小兵 MAIL:solarisxb@hotmail.com FROM:WWW.CHINAUNIX.NET 一.软件安装系统环境: 1.系统硬件:SUN F280 solaris8 2.操

开发辅助工具--Subversion安装、配置与使用

一.为什么要进行代码控制 在软件开发的过程中,经常因为程序代码版本的不统一而导致重新开发,或者在多人开发的项目中, 多人共同修改了同一个公共代码文件而导致的相互复盖的问题,诸如此类的问题还有很多,下面我们就来 举一个例子. 比如说UserA和UserB各自为自己的需求需要在公共代码文件CommonFilesA增加自己的代码段,修改完 后都要把自己的代码合并到项目经理那里去,结果UserA修改了文件,UserB也修改了文件,合并的时候 UserA把文件拷贝了过去,UserB在UserA后把文件也拷