gensim 计算句子相似性

给出原始文档（chinese.txt）结构，数据一行一行存储

本报瑞士日内瓦1月18日电  （记者杜尚泽、任彦、王远）18日，国家主席习近平在日内瓦万国宫出席“共商共筑人类命运共同体”高级别会议，并发表题为《共同构建人类命运共同体》的主旨演讲，深刻、全面、系统阐述人类命运共同体理念，主张共同推进构建人类命运共同体伟大进程，坚持对话协商、共建共享、合作共赢、交流互鉴、绿色低碳，建设一个持久和平、普遍安全、共同繁荣、开放包容、清洁美丽的世界。

联合国日内瓦总部总干事穆勒主持。古特雷斯致欢迎辞，感谢习近平主席莅临联合国日内瓦总部并发表重要演讲，称赞中国是多边主义的重要支柱，为联合国维和行动、可持续发展等事业和应对气候变化等全球治理进程作出了积极贡献。

当地时间18时许，习近平在第71届联合国大会主席汤姆森和联合国秘书长古特雷斯陪同下步入万国宫大会厅，全场起立，热烈鼓掌欢迎。

习近平在演讲中指出，人类正处在大发展大变革大调整时期，也正处在一个挑战层出不穷、风险日益增多的时代。回首过去100多年的历史，全人类的共同愿望，就是和平与发展。宇宙只有一个地球，人类共有一个家园。让和平的薪火代代相传，让发展的动力源源不断，让文明的光芒熠熠生辉，是各国人民的期待，也是我们这一代政治家应有的担当。中国方案是：构建人类命运共同体，实现共赢共享。

习近平强调，纵观近代以来的历史，建立公正合理的国际秩序是人类孜孜以求的目标。主权平等是数百年来国与国规范彼此关系最重要的准则，也是联合国及所有机构、组织共同遵循的首要原则。主权平等，真谛在于国家不分大小、强弱、贫富，主权和尊严必须得到尊重，内政不容干涉，都有权自主选择社会制度和发展道路。各国平等参与决策，构成了完善全球治理的重要力量。新形势下，我们要坚持主权平等，推动各国权利平等、机会平等、规则平等。

习近平指出，历史和现实给我们的启迪是，沟通协商是化解分歧的有效之策，政治谈判是解决冲突的根本之道。各国和国际司法机构有责任维护国际法治权威，应该确保国际法平等统一适用，不能搞双重标准，不能“合则用、不合则弃”，真正做到“无偏无党，王道荡荡”。我们要推进国际关系民主化。世界命运应该由各国共同掌握，国际规则应该由各国共同书写，全球事务应该由各国共同治理，发展成果应该由各国共同分享。我们应该秉承中立、公正、独立的基本原则，避免人道主义问题政治化，坚持人道主义援助非军事化。

习近平强调，构建人类命运共同体，国际社会要从伙伴关系、安全格局、经济发展、文明交流、生态建设等方面作出努力。

一要坚持对话协商，建设一个持久和平的世界。国家之间要构建对话不对抗、结伴不结盟的伙伴关系。大国要尊重彼此核心利益和重大关切，管控矛盾分歧，努力构建不冲突不对抗、相互尊重、合作共赢的新型关系。大国对小国要平等相待，不搞唯我独尊、强买强卖的霸道。应该全面禁止并最终彻底销毁核武器，实现无核世界。要秉持和平、主权、普惠、共治原则，把深海、极地、外空、互联网等领域打造成各方合作的新疆域，而不是相互博弈的竞技场。

二要坚持共建共享，建设一个普遍安全的世界。各方应该树立共同、综合、合作、可持续的安全观。反恐既要治标，更要治本。各国要加强协调，要动员全球力量有效应对难民危机。恐怖主义、难民危机等问题都同地缘冲突密切相关，化解冲突是根本之策。当事各方要通过协商谈判化解冲突，其他各方应该积极劝和促谈，尊重联合国发挥斡旋主渠道作用。国际社会应该加大对非洲等发展中国家卫生事业的支持和援助。

三要坚持合作共赢，建设一个共同繁荣的世界。各国特别是主要经济体要加强宏观政策协调，维护世界贸易组织规则，支持开放、透明、包容、非歧视性的多边贸易体制，构建开放型世界经济。搞贸易保护主义、画地为牢，损人不利己。经济全球化的大方向是正确的。我们要引导经济全球化健康发展，加强协调、完善治理，推动建设一个开放、包容、普惠、平衡、共赢的经济全球化，着力解决公平公正问题。

四要坚持交流互鉴，建设一个开放包容的世界。人类文明多样性是世界的基本特征，也是人类进步的源泉。文明差异不应该成为世界冲突的根源。不同文明要取长补短、共同进步，让文明互鉴成为推动人类社会进步的动力、维护世界和平的纽带。

五要坚持绿色低碳，建设一个清洁美丽的世界。我们应该遵循天人合一、道法自然的理念，寻求永续发展之路。要倡导绿色、低碳、循环、可持续的生产生活方式，平衡推进2030年可持续发展议程，不断开拓生产发展、生活富裕、生态良好的文明发展道路。各方要共同推动《巴黎协定》实施，不能让这一成果付诸东流。中国将继续采取行动应对气候变化，百分之百承担自己的义务。

习近平强调，中国始终认为，世界好，中国才能好；中国好，世界才更好。面向未来，中国维护世界和平的决心不会改变。中国从一个积贫积弱的国家发展成为世界第二大经济体，靠的不是对外军事扩张和殖民掠夺，而是人民勤劳、维护和平。中国将始终不渝走和平发展道路，永不称霸、永不扩张、永不谋求势力范围。中国促进共同发展的决心不会改变。中国发展得益于国际社会，中国也为全球发展作出了贡献。中国将继续奉行互利共赢的开放战略，欢迎各国搭乘中国发展的“顺风车”。中国提出“一带一路”倡议，就是要实现共赢共享发展。中国打造伙伴关系的决心不会改变。中国坚持独立自主的和平外交政策，在和平共处五项原则基础上同所有国家发展友好合作。中国将进一步联结遍布全球的“朋友圈”。中国支持多边主义的决心不会改变，将坚定维护以联合国为核心的国际体系，坚定维护以联合国宪章宗旨和原则为基石的国际关系基本准则，坚定维护联合国权威和地位，坚定维护联合国在国际事务中的核心作用。

习近平强调，构建人类命运共同体是一个美好的目标，也是一个需要一代又一代人接力跑才能实现的目标。中国愿同广大成员国、国际组织和机构一道，共同推进构建人类命运共同体的伟大进程。（演讲全文见第二版）

习近平的演讲赢得全场30多次热烈掌声。演讲结束后，全场响起长时间的掌声。

汤姆森随后在致辞中表示，习近平主席提出的人类命运共同体重大理念发人深省。长期以来，中国是联合国的忠实支持者。今天，习近平主席的演讲振奋和鼓舞了人心，为联合国推进和平与可持续发展事业提供了巨大动力。联合国高度赞赏中国为打造人类命运共同体作出的巨大贡献。

瑞士重要国际组织负责人和高级别职员、各国常驻日内瓦使节和高级外交官，瑞士政要和社会名流以及中国籍国际组织职员等约800人现场聆听习近平演讲。

会议结束后，习近平和夫人彭丽媛出席中国向联合国日内瓦总部赠礼仪式。习近平和古特雷斯共同拉下红绸，为“盛世欢歌”景泰蓝瓶揭幕。习近平指出，“盛世欢歌”瓶主题图案由孔雀、牡丹、玉兰、和平鸽等构成，在中国传统文化中象征着安定祥和、繁荣发展，既富有中华文化底蕴，又承载美好寓意。中国期待联合国为促进世界和平与发展、弘扬国际公平正义、推动各国合作共赢作出更大贡献。中国愿同世界各国一道，继续为建设人类更加美好的明天而共同努力

训练及生成文件程序，

生成字典各种语料库及训练后的模型，本文列举了lda和lsi，

#coding:utf-8
from gensim import corpora,similarities,models
import os
from collections import defaultdict
import codecs
import  json
import jieba
documents=[]
"""句子相似性"""
f=codecs.open("/home/lhy/data/word2vec/w2v_p/chinese.txt",'rb',"utf-8")
for line in f:
    if len(line)==0 or line=='\n':
        continue;
    seg_list=[]
    it = jieba.cut(line, cut_all=False)
    for word in  it:
        seg_list.append(word)
    documents.append(seg_list);
f.close()

'''stoplist = set('for a of the and to in'.split())
texts = [[word for word in document.lower().split() if word not in stoplist]
         for document in documents]'''
# 去掉只出现一次的单词
'''frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1
texts = [[token for token in text if frequency[token] > 1]
         for text in texts]'''
texts=documents;
#texts的结构必须是[["你好,好久不见"],["你好,好久不见"]]
dictionary = corpora.Dictionary(texts)   # 生成词典# -*- coding: utf-8 -*-
dictionary.save('mydict.dic')  # store the dictionary, for future reference
corpus = [dictionary.doc2bow(list(text)) for text in texts]
corpora.MmCorpus.serialize('corpus.mm', corpus)  # store to disk, for later use
# 首先加载语料库
if os.path.exists('mydict.dic') and os.path.exists('corpus.mm'):
    dictionary = corpora.Dictionary.load('mydict.dic')
    corpus = corpora.MmCorpus('corpus.mm')
    print 'used files generated from string2vector'
else:
    print 'please run string2vector firstly'

#创建一个model
tfidf = models.TfidfModel(corpus=corpus)
tfidf.save('model.tfidf')
#使用创建好的model生成一个对应的向量
vector = tfidf[corpus[0]]
print(vector)
#序列化
tfidf_corpus = tfidf[corpus]
corpora.MmCorpus.serialize('tfidf_corpus.mm', tfidf_corpus)

#lsi
lsi = models.LsiModel(corpus = tfidf_corpus,id2word=dictionary,num_topics=2)
lsi_corpus = lsi[tfidf_corpus]
lsi.save('model.lsi')
corpora.MmCorpus.serialize('lsi_corpus.mm', lsi_corpus)
print 'LSI Topics:'
lsitopics=lsi.print_topics(20)
print json.dumps(lsitopics, encoding='UTF-8', ensure_ascii=False)

#lda
lda = models.LdaModel(corpus = tfidf_corpus,id2word=dictionary,num_topics=2)
lda_corpus = lda[tfidf_corpus]
lda.save('model.lda')
corpora.MmCorpus.serialize('lda_corpus.mm', lda_corpus)
print 'LDA Topics:'
ldatopics=lda.print_topics(20)
print json.dumps(ldatopics, encoding='UTF-8', ensure_ascii=False)

给出测试文本，测试与本句话的最相似的chinese.txt中句子

#coding:utf-8
from gensim import corpora,similarities,models
import os
import jieba

# 首先加载语料库
if os.path.exists('lsi_corpus.mm') and os.path.exists('mydict.dic'):
    dictionary = corpora.Dictionary.load('mydict.dic')
    corpus = corpora.MmCorpus('lsi_corpus.mm')
    model = models.LsiModel.load('model.lsi')
    print 'used files generated from topics'
else:
    print 'please run topics firstly'

index = similarities.MatrixSimilarity(corpus)
index.save('lsi_similarity.sim')

document = u'当地时间18时许，习近平在第71届联合国大会主席汤姆森和联合国秘书长古特雷斯陪同下步入万国宫大会厅，全场起立，热烈鼓掌欢迎。'
bow_vec = dictionary.doc2bow(jieba.lcut(document))
lsi_vec = model[bow_vec]
sims = index[lsi_vec]
sims = sorted(enumerate(sims), key=lambda item: -item[1])
print sims

输出结果

[(2, 0.99687123), (14, 0.98970532), (1, 0.96761084), (15, 0.95816505), (17, 0.92470694), (16, 0.8268227), (12, 0.8062489), (13, 0.69322497), (0, 0.58627141), (3, 0.54754889), (11, 0.22966258), (6, -0.02081427), (4, -0.15133268), (10, -0.22423157), (5, -0.25941089),
(8, -0.39289135), (7, -0.40004539), (9, -0.41567764)]

可以看出下标为2，也就是第三条文本与测试句子最相似

时间： 2024-10-23 16:32:07

gensim 计算句子相似性的相关文章

PHP中TF-IDF与余弦相似性计算文章相似性

PHP计算相似度示例代码如下: 代码如下复制代码 <?php function similarity(array $vec1, array $vec2) { return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2)); } function dotProduct(array $vec1, array $vec2) { $result = 0; foreach (array_keys($vec1

Spark vs. MapReduce 时间节约66%，计算节约40%

MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapReduce的算法实现存在严重的性能问题.后起之秀Spark得益于其在迭代计算和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合数据挖掘算法.腾讯TDW Spark平台基于社区最新Spark版本进行深度改造,在性能.稳定和规模方面都得到了极大的提高,为大数据挖掘任务提供了有力

急求句子相似度算法在线等！！！

问题描述求助各位提供一个计算句子相似的算法(句子只包括主语,谓语,宾语),我不会编.请教各位谁能提供源代码. 解决方案解决方案二:各位帮帮忙!!!在线等!!!解决方案三:使用编辑距离吧./***@authorkaynezhang**/publicclassTest{privatestaticintminimum(inta,intb,intc){intmi;mi=a;if(b<mi){mi=b;}if(c<mi){mi=c;}returnmi;}privatestaticintgetLsnD

如何用Word2vec轻松处理新金融风控场景中的文本类数据

"在当前更加普惠的市场环境下,新金融服务的客群和范围进一步下沉扩大,业务形态也趋于更加小额分散.高效率和规模化,这对传统风控提出了更大的挑战,一方面针对此类客群的高价值金融数据覆盖率大为降低,另一方面业务专家在面对更多非结构化数据时到底该如何与风险挂钩也存有诸多疑惑.事实上,这些不同于传统强征信的数据在新金融风控业务中正显现出越来越重要的作用,大量成熟场景中的实践也证明合理地运用和发挥其价值往往能为整体风控效果带来超出想象的提升." ◆ ◆ ◆ One Hot Vector与Distr

深度学习挑战冯·诺依曼结构

2016年10月27日 "Nature" 期刊第538卷,发表了Google 旗下的 DeepMind 团队写的人工智能的论文,题目是 "Hybrid computing using a neural network with dynamic external memory" [1],用配置了动态外部存储的神经网络,实现杂交计算.这篇论文介绍了 Differentiable Neural Computer 的实现细节. DeepMind 团队在伦敦工作,2014

强大的语言

我越来越感慨语言之美,语言之强大. 这里的语言,是一个比较广的概念,既可以是中文,英文这类自然语言,也可以是C,C#,Python,Lisp这类通用语言,也可能是自己定义的领域特定语言(DSL).更广泛的可以是音乐和DNA序列. 语言就是字符串,一组由不同字符串组成的顺序链条.然而,大巧不工,越朴素简单的模式,其能力就越强大. 语言代表了知识: E=mc2 语言代表了美感: "人生若只如初见,何事秋风悲画扇" 语言代表了力量:"尔曹身与名俱灭,不废江河万古流" 语

简单通俗易懂：一个小例子完美解释Naive Bayes（朴素贝叶斯）分类器

更多深度文章,请关注:https://yq.aliyun.com/cloud 最简单的解决方案通常是最强大的解决方案,而朴素贝叶斯就是一个很好的证明.尽管机器学习在过去几年取得了巨大的进步,但朴素贝叶斯已被证明不仅简单,而且快速.准确.可靠.它已经成功地用于许多项目中,而且它对自然语言处理(NLP)的问题的解决提供了很大的帮助. 朴素贝叶斯是利用概率论和贝叶斯定理预测样本类别(如新闻或客户评论)的概率算法.它们是概率性的,这意味着它们计算给定样本的每个类别的概率,然后输出概率最高的样本类别.他们

Social Media附加价值开发的四大模式

郑昀 20090830 社会化媒体的可携带可传播数据是海量的,从中打捞珍珠并串成线,还是需要一些手段的.你不能简单地获取那些像水一样流动的数据来展示,无论你的界面多么漂亮,都没有太大价值,你必须增加一些附加价值. 我大致归类这些附加价值,分为六大价值点: Conversations:根据数据之间的关联,建立对话形式: Breaking News:及时发现突发新闻: Trends:热点趋势捕获和展现: Recommendations:根据用户数据做个性化推送: Groups/Tags:按照主题打包

如何用R进行文本内容的情感分析

一.关于文本内容的情感分析一篇文章反映了什么态度?褒义还是贬义?肯定还是否定?喜怒哀乐愁,反映的是哪种情绪特征?对这些内容的分析就是情感分析,或者叫情感倾向分析.情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向.当然,有正常阅读能力的人,在看了一篇文章后能够判断文章的情感和极性,但这是主观体验,不是量化数据.在对文章进行分析的时候,通常需要进行量化的分析,显得更加直观.客观. 情感分析基本上有两种方法,一种是极性分析,一种是情感类别分析.前者分析文章的总体态度是肯定还是