《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.10 练习

2.10 练习

下面是一些开放性答案的问题。

请尝试用pyodbc库访问任意一个数据库。  
你能创建一个基于正则表达式的标识器,令其选取的单词只包含大小写字母、数字和金钱符号吗?

[\w+]将会选取所有的单词和数字,即[A-Z A-Z0-9],而[\$]则会匹配金钱符号。

词干提取和词性还原这两个操作之间的差异是什么?
词干提取操作更多时候是一套用于获取词干一般形式的规则方法。而词形还原主要考虑的是当前的上下文语境以及相关单词的POS,然后将规则应用到特定的语法变化中。通常来说,词干提取的操作实现起来较为简单,并且在处理时间上也要明显短于词形还原。

你可以为自己的母语设计一个(基于规则的)Porter词干提取器吗?
提示:http://Snowball.tartarus.org/algorithms/english/stemmer.html。

在完成停用词移除之后,我们还可以执行其他NLP操作吗?
答案是否定的,这是不可能的。所有典型的NLP应用,如词性标注、断句处理等,都需要根据上下文语境来为既定文本生成相关的标签。一旦我们移除了停用词,其上下文环境也就不存在了。

为什么在印地文、中文这样的语言中,词干提取器会变得难以实现?
因为印度语的词法很丰富,而中文则是标识化的难度很高,它们都在符号的标准化上遇到了一定的挑战,因此词干提取器实现起来要困难得多。我们会在后面的章节中详细讨论这些挑战。

时间: 2024-10-01 15:33:22

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.10 练习的相关文章

《语义网基础教程(原书第3版)》—— 3.10 小结

3.10 小结 在本章中,我们介绍了SPARQL查询和更新,以及支撑SPARQL的基础设施.SPARQL通过匹配图模式来选择信息,并提供基于数值和字符串比较的过滤机制.SPARQL查询采用类似Turtle的语法.数据和模式(schema)都可以使用SPARQL来查询.UNION和OPTIONAL构造子允许SPARQL更容易地处理开放世界数据.SPARQL更新提供了从三元组存储库中更新和删除信息的机制.

数据科学之5个最佳Python库,为初学者定制的教程

如果你已经决定把Python作为你的编程语言,那么,你脑海中的下一个问题会是:"进行数据分析有哪些Python库可用?" Python有很多库可用来进行数据分析.但不必担心,你不需要学习所有那些可用库.你只须了解5个Python库,就可以完成绝大多数数据分析任务.下面逐一简单介绍这5个库,并提供你一些最好的教程来学习它们. 1Numpy对于科学计算,它是Python创建的所有更高层工具的基础.以下是它提供的一些功能: 1. N维数组,一种快速.高效使用内存的多维数组,它提供矢量化数学运

Python基础教程

# ****Python基础教程**** 目前,Python 作为一门当前最流行编程语言之一,网上各式各样学习教程非常,笔者因为起步较早,主要通过书籍学习Python2 ,目前Python正在Python2向Python3的方向迁移. 国内关于Python书籍资源更新太慢, 若英语水平不错,并且愿意学习Python3,最好通过Python官方文档进行学习. 若英语水平较差,并且仅想对Python3的语法进行基本了解.笔者推荐网站:[菜鸟教程](http://www.runoob.com/pyth

Python基础教程之字符串

1 基本字符串操作 2 字符串格式化:精简版 2.1 用字符串格式化操作符 2.2 用string的Template格式化字符串 3 字符串格式化:完整版 3.1 转换说明符 3.2 简单转换 3.3 字段宽度和精度 3.4 符号,对齐和 0 填充 4 字符串方法 4.1 find 4.2 join 4.3 lower 4.4 replace 4.5 split 4.6 strip 4.7 translate 1 基本字符串操作 说明:字符串也是序列的一种,所以分片,乘法,索引,求长度,最大,

python基础教程之自定义函数介绍_python

函数最重要的目的是方便我们重复使用相同的一段程序. 将一些操作隶属于一个函数,以后你想实现相同的操作的时候,只用调用函数名就可以,而不需要重复敲所有的语句. 函数的定义 首先,我们要定义一个函数, 以说明这个函数的功能. 复制代码 代码如下: def square_sum(a,b):     c = a**2 + b**2     return c 这个函数的功能是求两个数的平方和. 首先,def,这个关键字通知python:我在定义一个函数.square_sum是函数名. 括号中的a, b是函

2017年最流行的15个数据科学Python库

Python 近几年在数据科学行业获得了人们的极大青睐,各种资源也层出不穷.数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验,总结了数据科学家和工程师将在 2017 年最常使用的 Python 库. 核心库 1)NumPy 地址:http://www.numpy.org 当使用 Python 开始处理科学任务时,不可避免地需要求助 Python 的 SciPy Stack,它是专门为 Python 中的科学计算而设计的软件的集合(不要与 SciPy 混淆,它只是这

2017,最受欢迎的 15 大 Python 库有哪些?

近年来,Python 在数据科学行业扮演着越来越重要的角色.因此,我根据近来的使用体验,在本文中列出了对数据科学家.工程师们最有用的那些库. 由于这些库都开源了,我们从Github上引入了提交数,贡献者数和其他指标,这可以作为库流行程度的参考指标. 核心库 1. NumPy (提交数: 15980, 贡献者数: 522) 当开始处理Python中的科学任务,Python的SciPy Stack肯定可以提供帮助,它是专门为Python中科学计算而设计的软件集合(不要混淆SciPy库,它是SciPy

简明Python3教程(A Byte of Python 3)

 关键字:[A Byte of Python v1.92(for Python 3.0)] [A Byte of Python3] 简明Python教程 Python教程 简明Python3教程    简明Python3教程<A Byte of Python3>是一本关于用Python3语言编程的书.可以作为初学这的入门教程.也可以供计算机相关人员参考. 本书可作为Python编程语言的指导或辅导.主要是针对新手的,当然,对于有经验的程序员也很有用.如果你所了解的计算机的知识就是如何保存文本文

2017,最受欢迎的15大Python库有哪些?

近年来,Python 在数据科学行业扮演着越来越重要的角色.因此,我根据近来的使用体验,在本文中列出了对数据科学家.工程师们最有用的那些库. 由于这些库都开源了,我们从Github上引入了提交数,贡献者数和其他指标,这可以作为库流行程度的参考指标. 核心库 1. NumPy (提交数: 15980, 贡献者数: 522) 当开始处理Python中的科学任务,Python的SciPy Stack肯定可以提供帮助,它是专门为Python中科学计算而设计的软件集合(不要混淆SciPy库,它是SciPy