textblob 使用中问题

(1)找不到数据文件错误

Errors more
Resource u'tokenizers/punkt/english.pickle' not found.  Please
    use the NLTK Downloader to obtain the resource:  >>>
    nltk.download()
    Searched in:
    - '/var/www/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - u'

Traceback (most recent call last):
  File "/var/www/CSCE-470-Anime-Recommender/py/app.py", line 40, in <module>
    cl = NaiveBayesClassifier(Functions.classify(UserData))
  File "/usr/local/lib/python2.7/dist-packages/textblob/classifiers.py", line 192, in __init__
    self.train_features = [(self.extract_features(d), c) for d, c in self.train_set]
  File "/usr/local/lib/python2.7/dist-packages/textblob/classifiers.py", line 169, in extract_features
    return self.feature_extractor(text, self.train_set)
  File "/usr/local/lib/python2.7/dist-packages/textblob/classifiers.py", line 81, in basic_extractor
    word_features = _get_words_from_dataset(train_set)
  File "/usr/local/lib/python2.7/dist-packages/textblob/classifiers.py", line 63, in _get_words_from_dataset
    return set(all_words)
  File "/usr/local/lib/python2.7/dist-packages/textblob/classifiers.py", line 62, in <genexpr>
    all_words = chain.from_iterable(tokenize(words) for words, _ in dataset)
  File "/usr/local/lib/python2.7/dist-packages/textblob/classifiers.py", line 59, in tokenize
    return word_tokenize(words, include_punc=False)
  File "/usr/local/lib/python2.7/dist-packages/textblob/tokenizers.py", line 72, in word_tokenize
    for sentence in sent_tokenize(text))
  File "/usr/local/lib/python2.7/dist-packages/textblob/base.py", line 64, in itokenize
    return (t for t in self.tokenize(text, *args, **kwargs))
  File "/usr/local/lib/python2.7/dist-packages/textblob/decorators.py", line 38, in decorated
    raise MissingCorpusError()
MissingCorpusError:
Looks like you are missing some required data for this feature.

To download the necessary data, simply run

    python -m textblob.download_corpora

or use the NLTK downloader to download the missing data: http://nltk.org/data.html
If this doesn't fix the problem, file an issue at https://github.com/sloria/TextBlob/issues.

 我本地没有taggers/averaged_perceptron_tagger/averaged_perceptron_tagger.pickle这个文件,打开本地nltk_data,发现还真是,只有下载了

解决方法:使用nltk下载

nltk.download()

下载过程中会有个弹窗,要自己选择下载的文件,在Models里第一个averaged_perceptron_tagger,然后点击下载,如果网络环境比较好的话,很快就可以下载完成了。

(2)翻译问题

    textblob 的翻译程序在 /usr/lib/python2.7/site-packages/textblob/translate.py

他主要是使用了google的翻译,代码中的链接为

url = "http://translate.google.com/translate_a/t"

所以,国内是访问不料这个网址的,所以就翻译不了

时间: 2024-12-09 17:14:52

textblob 使用中问题的相关文章

c-WMI使用中出现异常,求助!!

问题描述 WMI使用中出现异常,求助!! 近期用wmi获取本地硬件信息时,客户反映有些机器突然获取不到了.经过检查发现是在初始化WMI环境时建立实例是失败报REGDB_E_CLASSNOTREG 即"指定的类没有在注册表中注册. 也可能是指定的dwClsContext没有注册或注册表中的服务器类型损坏"不知为何.部分机器可以通过重启WMI服务恢复.但有的机器就无效. HRESULT CWmiInfo::InitWmi() { HRESULT hr; //一.初始化COM组件 //初始化

timer-DEV 第三方控件中的使用中自定义用户控件里面的Timer 控件的使用

问题描述 DEV 第三方控件中的使用中自定义用户控件里面的Timer 控件的使用 用户控件中使用的代码如下:/asp:ScriptManager /asp:Timer /asp:Literal /asp:UpdatePanel 为什么到事件刷新的时候会报 " Sys.WebForms.PageRequestManagerParserErrorException: 未能分析从服务器收到的消息." 这个错误呢?请指教一下 解决方案 asp不会,jsp会一点,祝你好运!

防火墙程序在使用中的几点经验

由于黑客泛滥,所以为了防止恶意供给,防火墙软件应运而生.但是我们应该能够正确使用防火墙软件,让它真正为我们服务.下面我就防火墙软件的使用中的几点经验介绍给大家. 一. 安全级别 现在大多数防火墙都定义了安全级别,为了给不同需要的用户不同的安全控制,但是很多用户并不是特别懂这些,为了安全,就盲目的把安全级别调整到"高安全级",认为安全级别越高越好.其实不是这样.如果你的电脑太安全了,你会发现网络游戏就无法启动了,而且视频程序也就无法访问到网上的视频文件了(这对于ADSL用户是一个极大损失

使用“使用中值排序基数法”实现树状结构(一)

排序|排序 在BBS的编写中,经常有人问怎样实现树状结构?一个比较不负责任的回答是:使用递归算法.当然,递归是一个可行的办法(二叉树的历遍也好象只能使用递归算法),但对于BBS来说,这样做势必要进行大量的Sql查询(虽然可以使用存储过程来做,但要从根本上加快速度,则应该考虑更快的算法). 下面给出一个可行的彻底屏弃递的实现树状结构的算法. 下面给出另一种使用"使用中值排序基数法"实现树状结构: 一.主要思想:增加一个排序基数字段ordernum,回复同一根贴的贴子中插入贴子时,排序

PS教程:解析路径使用中一些技巧

本教程为一个技巧教程,钢笔和路径大家应该都不陌生的说,在作图的各个方面用途非常的广泛,但是很多朋友说学习起来很难,其实只要你掌握了其中的技巧,也似和很简单的说,今天我们就通过对线条的变化来解析路径使用中一些技巧. [1] [2] [3]  下一页

Google Analytics使用中的常见问题(二)

本篇是Google Analytics使用中的常见问题系列文章的第二篇,感谢所有在邮件中和我分享问题的朋友们,我也许不能一一回复你们的问题,但我会将所有的问题整理分类,以文章的形式发布出来,与大家一起分享经验.同时也感谢<蓝鲸的网站分析笔记群>中的管理员们.感谢你们对群里问题的及时解答.闲话少说,下面开始进入本篇中的五个常见问题.   1,为什么站内广告的click与目标页的PV不一致? 这是我最近遇到的一个问题,先来描述下问题产生的背景.在分析广告效果时,我们通常会关注到站内广告被点击的次数

Google Analytics使用中的常见问题(四)

在汇总了5个常见问题后,本系列的第四篇文章出炉了.写这篇文章的时候我在想,直到现在我们使用Google Analytics时还会碰到这么多问题,那我们平时究竟是以一种什么样的方式在使用这个工具呢?如果工具都使用的这么粗矿,我们的分析结果又会如何呢?不过幸好我们在不断的发现问题,并且不断解决问题.我们在错误中成长,在问题中进步. 1 Google Analytics如何计算24小时数据? 在Google Analytics的报告中为我们提供了按小时的指标数据.无论是访问次数,转化率,还是跳出率等指

Google Analytics使用中的常见问题(五)

Google Analytics常见问题系列继续更新,本周主要解决使用过程中的一些细节问题.例如:有些关键词的访次数为何是0,这在大部分报告中数据量并不大,即使忽略也不会影响趋势.又比如在报告中,如果使用报告级过滤器按停留时间过滤信息.这些都是很细节的问题,但了解他们可以帮助我们更深入的了解Google Analytics的工作机制.下面我们就开始逐一介绍. 一,为什么有些关键词的访问次数是0?   你的关键词报告中有访问次数为0的关键词吗?这些关键词可能来自Google或baidu,或者其他搜

移动硬盘使用中常见问题

移动硬盘现在已经成为常用的存储设备,其便携性非传统的存储设备可以相比,但朋友们在使用过程中,可能遇到多种问题,现在就这些常见的问题,谈谈自己的解决方法,希望对朋友们有帮助. 一.移动硬盘的识别 1.USB接口未开启.这种情况一般出现在一些稍老的机器上.这些机器上虽然有USB接口,但在BIOS中却是默认关闭的.这样即使系统支持也不不能识别. 开启方法:启动电脑时按住DEL键,进入BIOS设置,在"Chipset Features Setup"-"Integrated Perip