textblob 自己训练模型

textblob 实际上是封装了以下nltk,几乎所有方法都是调用的nltk库。

还是用上一篇的训练性别的例子。

#coding=utf-8
import random, nltk
from nltk.corpus import names
from textblob.classifiers import NLTKClassifier
from textblob import TextBlob
def gender_features(word):
    '''''提取每个单词的最后一个字母作为特征'''
    return {'last_letter': word[-1]}

# 先为原始数据打好标签
labeled_names = (
[(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])
# 随机打乱打好标签的数据集的顺序,
random.shuffle(labeled_names)
# 从原始数据中提取特征(名字的最后一个字母, 参见gender_features的实现)
featuresets = [(gender_features(name), gender) for (name, gender) in labeled_names]
# 将特征集划分成训练集和测试集
train_set, test_set = featuresets[500:], featuresets[:500]
classif=NLTKClassifier(train_set)
classif.nltk_class=nltk.NaiveBayesClassifier;
blob = TextBlob("man",classifier=classif)
print blob.classify()
时间: 2024-09-21 10:28:00

textblob 自己训练模型的相关文章

nltk 自己训练模型例子

NLTK是Python的一个自然语言处理的模块,其中实现了朴素贝叶斯分类算法.以下,就使用上一篇文中提到的数据,来应用这个模块实现朴素贝叶斯分类.NLTK的实现更加泛化,所以在应用到我们的数据上时需要做一点的转化. 首先来看一下NLTK官方文档中给出的一个简单明了的例子,在了解这个例子之后,再设法将同样的模型应用到自己的数据集上.官方给出的例子是英文名中,在知道名字中最后一个字母后,判断这个名字对应的人是男是女. [python] view plain copy #coding=utf-8  

textblob 使用中问题

(1)找不到数据文件错误 Errors more Resource u'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: >>> nltk.download() Searched in: - '/var/www/nltk_data' - '/usr/share/nltk_data' - '/usr/local/share/nltk_data'

大数据下的逻辑回归训练模型方法论

在数据膨胀的当今社会里,http://www.aliyun.com/zixun/aggregation/13584.html">海量数据中蕴含价值日渐凸显出来.如何有效的挖掘海量数据中的有效信息已经成为各个领域面临的共同问题.以互联网企业为代表的科技公司依据自身的实际需求,开始大量的应用机器学习.数据挖掘以及人工智能等算法获取海量数据中蕴含的信息,并且已经取得了很好的效果. 当今社会已经从过去的信息匮乏,转变为信息泛滥的时代.由于网络以及相关应用的不断普及,网络数据逐渐呈现着"海

复旦、清华和英特尔中国研究院ICCV新作:完全脱离预训练模型的目标检测方法

最近,由复旦大学.清华大学和英特尔中国研究院合作提出的一种新型的目标检测方法 (DSOD) 被国际计算机视觉顶级会议ICCV 2017接收.论文标题为:DSOD: Learning Deeply Supervised Object Detectors from Scratch. 论文地址:https://arxiv.org/abs/1708.01241.论文代码:https://github.com/szq0214/DSOD. 论文在Arxiv放出之后,在社交网络上引起广泛关注.本文对这个工作做

Keras 之父讲解 Keras:几行代码就能在分布式环境训练模型 | Google I/O 2017

作为号称是 TensorFlow 最好用.对新手最友好的 API,一起来看看它的神通在哪里. Francois Chollet:对许多使用场景而言,canned estimator 是相当不错的选择.但如果你要做的事并没有现成的 canned estimator,怎么办?如果需要写自己的定制模型呢?这时,就到了 Keras API 派上用场的时候. 什么是 Keras API? 简而言之,它就是一个用于创建 TensorFlow 模型的高级 API,你可以与它一起使用 estimator cla

专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下

在IT界,异构计算并不是一个新兴的词. 近十年来,计算行业经历了从32bit."x86-64".多核心.通用GPGPU以及2010年"CPU-GPU"异构计算的变迁.而最近几年,随着人工智能.高性能数据分析和金融分析等计算密集型领域的兴起,异构计算才突然火了起来. 因为传统通用计算的方式已经无法满足我们对计算能力的需求,异构计算被认为是现阶段挑起计算大梁的关键技术,阿里云异构计算产品解决方案就在这样的大环境下诞生了,这支团队的掌舵人正是张献涛. 张献涛,花名旭卿,武

PAI分布式机器学习平台编程模型演进之路

什么是PAI? PAI的全称是Platform of Artificial Intelligence,主要在使用机器学习做模型训练时提供整套链路.机器学习即服务,把机器学习作为服务对外推出,大家可以在平台上使用比较先进的机器学习算法.将多种深度学习框架集成到PAI中,同时基于深度学习框架包装成更加易用的组件.具备异构的计算服务能力,把CPU计算能力和GPU计算能力统一调度起来,异构的计算能力透明,大家的注意力是哪些机器学习算法可以帮助业务,不用关心底层资源的申请和分配.PAI也支持在线预测服务,

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度

阿里云发布异构计算产品家族,你可以在上面模拟核爆炸

本文讲的是阿里云发布异构计算产品家族,你可以在上面模拟核爆炸 数据.算力和算法,这是人工智能发展的三大要素. 近一年来,人工智能迎来了史上第三次热潮.移动互联网时代沉淀下来的大量数据和GPU近几年的快速发展,让学界和业界相信,这人工智能时代真的要来了. 由于人工智能模型训练对算力的要求,原有的通用型CPU架构无法满足,不少企业或科研机构在训练模型的时候会通过采用和主处理器(CPU)不同架构的加速器件(也就是所谓"异构"),如GPU.FPGA.ASIC等器件,提供高密度并行计算的运算能力