word2vec python使用

（1）安装gensim

pip install  --upgrade setuptools
pip install gensim

sudo pip install pattern

（2）使用上次训练好的词向量vectors.bin

vectors.bin 的生成参考http://blog.csdn.net/u013378306/article/details/54616829

# -*- coding: utf-8 -*-
from gensim.models.word2vec import  Word2Vec
model=Word2Vec.load_word2vec_format("/home/lhy/data/word2vec/w2v/trunk/vectors.bin",binary=True);

#输出词good的向量
print model["good"]

#找出 woman king积极影响，man消极影响的词，按顺序5个
ll=model.most_similar(positive=['woman','king'],negative=['man'],topn=5);
print ll;

#good ,bad的余弦相似度
sim1 = model.similarity(u'good', u'bad')
print sim1
# 两个列表的 余弦相似度
list1 = [u'good', u'bad']
list2 = [u'red',u'good']
list_sim1 =  model.n_similarity(list1, list2)
print list_sim1

#找出其中一个不同于其他类的词
list = [u'good', u'bad', u'her', u'greet']
print model.doesnt_match(list)

时间： 2024-10-25 20:44:38

word2vec python使用的相关文章

Python资源大全

The Python Tutorial (Python 2.7.11) 的中文翻译版本.Python Tutorial 为初学 Python 必备官方教程,本教程适用于 Python 2.7.X 系列. 在线阅读 » Fork Me » The Python Tutorial (Python 3.5.1) 的中文翻译版本.Python Tutorial 为初学 Python 必备官方教程,本教程适用于 Python 3.5.x. 在线阅读 » Fork Me » Flask 是一个轻量级的 We

一文详解 Word2vec 之 Skip-Gram 模型（实现篇）

前言上一篇的专栏介绍了Word2Vec中的Skip-Gram模型的结构和训练,如果看过的小伙伴可以直接开始动手用TensorFlow实现自己的Word2Vec模型,本篇文章将利用TensorFlow来完成Skip-Gram模型.还不是很了解Skip-Gram思想的小伙伴可以先看一下上一篇的专栏内容. 本篇实战代码的目的主要是加深对Skip-Gram模型中一些思想和trick的理解.由于受限于语料规模.语料质量.算法细节以及训练成本的原因,训练出的结果显然是无法跟gensim封装的Word2Ve

[python] LDA处理文档主题分布及分词、词频、tfidf计算

这篇文章主要是讲述如何通过LDA处理文本内容TXT,并计算其文档主题分布,主要是核心代码为主.其中LDA入门知识介绍参考这篇文章,包括安装及用法: [python] LDA处理文档主题分布代码入门笔记 1.输入输出输入是test.txt文件,它是使用Jieba分词之后的文本内容,通常每行代表一篇文档. 该文本内容原自博客:文本分析之TFIDF/LDA/Word2vec实践 ,推荐大家去阅读. 新春备年货 , 新年

Python语言下的机器学习库

Python是最好的编程语言之一,在科学计算中用途广泛:计算机视觉.人工智能.数学.天文等.它同样适用于机器学习也是意料之中的事. 当然,它也有些缺点;其中一个是工具和库过于分散.如果你是拥有unix思维(unix-minded)的人,你会觉得每个工具只做一件事并且把它做好是非常方便的.但是你也需要知道不同库和工具的优缺点,这样在构建系统时才能做出合理的决策.工具本身不能改善系统或产品,但是使用正确的工具,我们可以工作得更高效,生产率更高.因此了解正确的工具,对你的工作领域是非常重要的. 这篇文

不可思议的Word2Vec系列二训练好的模型

由于后面几篇要讲解Word2Vec怎么用,因此笔者先训练好了一个Word2Vec模型.为了节约读者的时间,并且保证读者可以复现后面的结果,笔者决定把这个训练好的模型分享出来,用Gensim训练的.单纯的词向量并不大,但第一篇已经说了,我们要用到完整的Word2Vec模型,因此我将完整的模型分享出来了,包含四个文件,所以文件相对大一些. 提醒读者的是,如果你想获取完整的Word2Vec模型,又不想改源代码,那么Python的Gensim库应该是你唯一的选择,据我所知,其他版本的Word2Vec最后

2017，最受欢迎的 15 大 Python 库有哪些？

近年来,Python 在数据科学行业扮演着越来越重要的角色.因此,我根据近来的使用体验,在本文中列出了对数据科学家.工程师们最有用的那些库. 由于这些库都开源了,我们从Github上引入了提交数,贡献者数和其他指标,这可以作为库流行程度的参考指标. 核心库 1. NumPy (提交数: 15980, 贡献者数: 522) 当开始处理Python中的科学任务,Python的SciPy Stack肯定可以提供帮助,它是专门为Python中科学计算而设计的软件集合(不要混淆SciPy库,它是SciPy

2017年最流行的15个数据科学Python库

Python 近几年在数据科学行业获得了人们的极大青睐,各种资源也层出不穷.数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验,总结了数据科学家和工程师将在 2017 年最常使用的 Python 库. 核心库 1)NumPy 地址:http://www.numpy.org 当使用 Python 开始处理科学任务时,不可避免地需要求助 Python 的 SciPy Stack,它是专门为 Python 中的科学计算而设计的软件的集合(不要与 SciPy 混淆,它只是这

R和Python中的文本挖掘：8个入门小贴士

你希望学习文本挖掘,却发现大多数教程难度跨度很大?或者说你找不到心仪的数据集? 本文将会通过 8 个小贴士帮助你走进文本挖掘之门. 对文本保持好奇在数据科学世界中,凡事的第一步都是"感到好奇",文本挖掘也不例外. 就像 StackOverflow 的数据科学家 David Robinson 在他的博客中说的那样,"当我看到一个假设 [-] 我就迫不及待地想要用数据验证它".你也应该像他那样对文本保持好奇心. David Robinson 看到的假设是: 即使你并不