给出原始文档(chinese.txt)结构,数据一行一行存储
本报瑞士日内瓦1月18日电 (记者杜尚泽、任彦、王远)18日,国家主席习近平在日内瓦万国宫出席“共商共筑人类命运共同体”高级别会议,并发表题为《共同构建人类命运共同体》的主旨演讲,深刻、全面、系统阐述人类命运共同体理念,主张共同推进构建人类命运共同体伟大进程,坚持对话协商、共建共享、合作共赢、交流互鉴、绿色低碳,建设一个持久和平、普遍安全、共同繁荣、开放包容、清洁美丽的世界。 联合国日内瓦总部总干事穆勒主持。古特雷斯致欢迎辞,感谢习近平主席莅临联合国日内瓦总部并发表重要演讲,称赞中国是多边主义的重要支柱,为联合国维和行动、可持续发展等事业和应对气候变化等全球治理进程作出了积极贡献。 当地时间18时许,习近平在第71届联合国大会主席汤姆森和联合国秘书长古特雷斯陪同下步入万国宫大会厅,全场起立,热烈鼓掌欢迎。 习近平在演讲中指出,人类正处在大发展大变革大调整时期,也正处在一个挑战层出不穷、风险日益增多的时代。回首过去100多年的历史,全人类的共同愿望,就是和平与发展。宇宙只有一个地球,人类共有一个家园。让和平的薪火代代相传,让发展的动力源源不断,让文明的光芒熠熠生辉,是各国人民的期待,也是我们这一代政治家应有的担当。中国方案是:构建人类命运共同体,实现共赢共享。 习近平强调,纵观近代以来的历史,建立公正合理的国际秩序是人类孜孜以求的目标。主权平等是数百年来国与国规范彼此关系最重要的准则,也是联合国及所有机构、组织共同遵循的首要原则。主权平等,真谛在于国家不分大小、强弱、贫富,主权和尊严必须得到尊重,内政不容干涉,都有权自主选择社会制度和发展道路。各国平等参与决策,构成了完善全球治理的重要力量。新形势下,我们要坚持主权平等,推动各国权利平等、机会平等、规则平等。 习近平指出,历史和现实给我们的启迪是,沟通协商是化解分歧的有效之策,政治谈判是解决冲突的根本之道。各国和国际司法机构有责任维护国际法治权威,应该确保国际法平等统一适用,不能搞双重标准,不能“合则用、不合则弃”,真正做到“无偏无党,王道荡荡”。我们要推进国际关系民主化。世界命运应该由各国共同掌握,国际规则应该由各国共同书写,全球事务应该由各国共同治理,发展成果应该由各国共同分享。我们应该秉承中立、公正、独立的基本原则,避免人道主义问题政治化,坚持人道主义援助非军事化。 习近平强调,构建人类命运共同体,国际社会要从伙伴关系、安全格局、经济发展、文明交流、生态建设等方面作出努力。 一要坚持对话协商,建设一个持久和平的世界。国家之间要构建对话不对抗、结伴不结盟的伙伴关系。大国要尊重彼此核心利益和重大关切,管控矛盾分歧,努力构建不冲突不对抗、相互尊重、合作共赢的新型关系。大国对小国要平等相待,不搞唯我独尊、强买强卖的霸道。应该全面禁止并最终彻底销毁核武器,实现无核世界。要秉持和平、主权、普惠、共治原则,把深海、极地、外空、互联网等领域打造成各方合作的新疆域,而不是相互博弈的竞技场。 二要坚持共建共享,建设一个普遍安全的世界。各方应该树立共同、综合、合作、可持续的安全观。反恐既要治标,更要治本。各国要加强协调,要动员全球力量有效应对难民危机。恐怖主义、难民危机等问题都同地缘冲突密切相关,化解冲突是根本之策。当事各方要通过协商谈判化解冲突,其他各方应该积极劝和促谈,尊重联合国发挥斡旋主渠道作用。国际社会应该加大对非洲等发展中国家卫生事业的支持和援助。 三要坚持合作共赢,建设一个共同繁荣的世界。各国特别是主要经济体要加强宏观政策协调,维护世界贸易组织规则,支持开放、透明、包容、非歧视性的多边贸易体制,构建开放型世界经济。搞贸易保护主义、画地为牢,损人不利己。经济全球化的大方向是正确的。我们要引导经济全球化健康发展,加强协调、完善治理,推动建设一个开放、包容、普惠、平衡、共赢的经济全球化,着力解决公平公正问题。 四要坚持交流互鉴,建设一个开放包容的世界。人类文明多样性是世界的基本特征,也是人类进步的源泉。文明差异不应该成为世界冲突的根源。不同文明要取长补短、共同进步,让文明互鉴成为推动人类社会进步的动力、维护世界和平的纽带。 五要坚持绿色低碳,建设一个清洁美丽的世界。我们应该遵循天人合一、道法自然的理念,寻求永续发展之路。要倡导绿色、低碳、循环、可持续的生产生活方式,平衡推进2030年可持续发展议程,不断开拓生产发展、生活富裕、生态良好的文明发展道路。各方要共同推动《巴黎协定》实施,不能让这一成果付诸东流。中国将继续采取行动应对气候变化,百分之百承担自己的义务。 习近平强调,中国始终认为,世界好,中国才能好;中国好,世界才更好。面向未来,中国维护世界和平的决心不会改变。中国从一个积贫积弱的国家发展成为世界第二大经济体,靠的不是对外军事扩张和殖民掠夺,而是人民勤劳、维护和平。中国将始终不渝走和平发展道路,永不称霸、永不扩张、永不谋求势力范围。中国促进共同发展的决心不会改变。中国发展得益于国际社会,中国也为全球发展作出了贡献。中国将继续奉行互利共赢的开放战略,欢迎各国搭乘中国发展的“顺风车”。中国提出“一带一路”倡议,就是要实现共赢共享发展。中国打造伙伴关系的决心不会改变。中国坚持独立自主的和平外交政策,在和平共处五项原则基础上同所有国家发展友好合作。中国将进一步联结遍布全球的“朋友圈”。中国支持多边主义的决心不会改变,将坚定维护以联合国为核心的国际体系,坚定维护以联合国宪章宗旨和原则为基石的国际关系基本准则,坚定维护联合国权威和地位,坚定维护联合国在国际事务中的核心作用。 习近平强调,构建人类命运共同体是一个美好的目标,也是一个需要一代又一代人接力跑才能实现的目标。中国愿同广大成员国、国际组织和机构一道,共同推进构建人类命运共同体的伟大进程。(演讲全文见第二版) 习近平的演讲赢得全场30多次热烈掌声。演讲结束后,全场响起长时间的掌声。 汤姆森随后在致辞中表示,习近平主席提出的人类命运共同体重大理念发人深省。长期以来,中国是联合国的忠实支持者。今天,习近平主席的演讲振奋和鼓舞了人心,为联合国推进和平与可持续发展事业提供了巨大动力。联合国高度赞赏中国为打造人类命运共同体作出的巨大贡献。 瑞士重要国际组织负责人和高级别职员、各国常驻日内瓦使节和高级外交官,瑞士政要和社会名流以及中国籍国际组织职员等约800人现场聆听习近平演讲。 会议结束后,习近平和夫人彭丽媛出席中国向联合国日内瓦总部赠礼仪式。习近平和古特雷斯共同拉下红绸,为“盛世欢歌”景泰蓝瓶揭幕。习近平指出,“盛世欢歌”瓶主题图案由孔雀、牡丹、玉兰、和平鸽等构成,在中国传统文化中象征着安定祥和、繁荣发展,既富有中华文化底蕴,又承载美好寓意。中国期待联合国为促进世界和平与发展、弘扬国际公平正义、推动各国合作共赢作出更大贡献。中国愿同世界各国一道,继续为建设人类更加美好的明天而共同努力
训练及生成文件程序,
生成字典各种语料库及训练后的模型,本文列举了lda和lsi,
#coding:utf-8 from gensim import corpora,similarities,models import os from collections import defaultdict import codecs import json import jieba documents=[] """句子相似性""" f=codecs.open("/home/lhy/data/word2vec/w2v_p/chinese.txt",'rb',"utf-8") for line in f: if len(line)==0 or line=='\n': continue; seg_list=[] it = jieba.cut(line, cut_all=False) for word in it: seg_list.append(word) documents.append(seg_list); f.close() '''stoplist = set('for a of the and to in'.split()) texts = [[word for word in document.lower().split() if word not in stoplist] for document in documents]''' # 去掉只出现一次的单词 '''frequency = defaultdict(int) for text in texts: for token in text: frequency[token] += 1 texts = [[token for token in text if frequency[token] > 1] for text in texts]''' texts=documents; #texts的结构必须是[["你好,好久不见"],["你好,好久不见"]] dictionary = corpora.Dictionary(texts) # 生成词典# -*- coding: utf-8 -*- dictionary.save('mydict.dic') # store the dictionary, for future reference corpus = [dictionary.doc2bow(list(text)) for text in texts] corpora.MmCorpus.serialize('corpus.mm', corpus) # store to disk, for later use # 首先加载语料库 if os.path.exists('mydict.dic') and os.path.exists('corpus.mm'): dictionary = corpora.Dictionary.load('mydict.dic') corpus = corpora.MmCorpus('corpus.mm') print 'used files generated from string2vector' else: print 'please run string2vector firstly' #创建一个model tfidf = models.TfidfModel(corpus=corpus) tfidf.save('model.tfidf') #使用创建好的model生成一个对应的向量 vector = tfidf[corpus[0]] print(vector) #序列化 tfidf_corpus = tfidf[corpus] corpora.MmCorpus.serialize('tfidf_corpus.mm', tfidf_corpus) #lsi lsi = models.LsiModel(corpus = tfidf_corpus,id2word=dictionary,num_topics=2) lsi_corpus = lsi[tfidf_corpus] lsi.save('model.lsi') corpora.MmCorpus.serialize('lsi_corpus.mm', lsi_corpus) print 'LSI Topics:' lsitopics=lsi.print_topics(20) print json.dumps(lsitopics, encoding='UTF-8', ensure_ascii=False) #lda lda = models.LdaModel(corpus = tfidf_corpus,id2word=dictionary,num_topics=2) lda_corpus = lda[tfidf_corpus] lda.save('model.lda') corpora.MmCorpus.serialize('lda_corpus.mm', lda_corpus) print 'LDA Topics:' ldatopics=lda.print_topics(20) print json.dumps(ldatopics, encoding='UTF-8', ensure_ascii=False)
给出测试文本,测试与本句话的最相似的chinese.txt中句子
#coding:utf-8 from gensim import corpora,similarities,models import os import jieba # 首先加载语料库 if os.path.exists('lsi_corpus.mm') and os.path.exists('mydict.dic'): dictionary = corpora.Dictionary.load('mydict.dic') corpus = corpora.MmCorpus('lsi_corpus.mm') model = models.LsiModel.load('model.lsi') print 'used files generated from topics' else: print 'please run topics firstly' index = similarities.MatrixSimilarity(corpus) index.save('lsi_similarity.sim') document = u'当地时间18时许,习近平在第71届联合国大会主席汤姆森和联合国秘书长古特雷斯陪同下步入万国宫大会厅,全场起立,热烈鼓掌欢迎。' bow_vec = dictionary.doc2bow(jieba.lcut(document)) lsi_vec = model[bow_vec] sims = index[lsi_vec] sims = sorted(enumerate(sims), key=lambda item: -item[1]) print sims
输出结果
[(2, 0.99687123), (14, 0.98970532), (1, 0.96761084), (15, 0.95816505), (17, 0.92470694), (16, 0.8268227), (12, 0.8062489), (13, 0.69322497), (0, 0.58627141), (3, 0.54754889), (11, 0.22966258), (6, -0.02081427), (4, -0.15133268), (10, -0.22423157), (5, -0.25941089),
(8, -0.39289135), (7, -0.40004539), (9, -0.41567764)]
可以看出下标为2,也就是第三条文本与测试句子最相似
时间: 2024-10-23 16:32:07