simhash-海明距离解惑--如何计算短文本

问题描述

海明距离解惑--如何计算短文本

 海明距离--
 欧氏距离--

资料搜集:
    百度百科:    在信息编码中，两个合法代码对应位上编码不同的位数称为码距，又称海明距离。
       博客:        在信息论中，两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。换句话说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。

在实际的条件下:
    [篮球教程]篮球运球训练
    [篮球教程]篮球传球训练

   在海明距离的计算中,两个资讯是相似的.但是其实根据名称可以看出来,两篇资讯其实是不相同的,天差地别..这个计算的方式是怎么计算的呢?
            1.分词   结果为   运球  --- 传球 两个不同..
            2.hash    运球   ---  传球  hash不同.
            3.加权...   不懂!  不知道怎么加权,如果是按照词性或者词频来看的话,传球跟运球的词频词性基本相似...  会出现相同结果..  求大牛指点!

            求大牛给推荐一个短文本的相似性计算方式!

时间： 2024-08-31 08:30:45

simhash-海明距离解惑--如何计算短文本的相关文章

海量数据相似度计算实例 simhash和海明距离

通过采集系统我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析.分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法.欧式距离.Jaccard相似度.最长公共子串.编辑距离等.这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重.最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复.看起来很简单,我们来做个测试,就拿最简单的

海量数据,海明距离高效检索(smlar) - 阿里云RDS PosgreSQL最佳实践

标签 PostgreSQL , 海明距离 , smlar , GiST索引背景 http://www.cnblogs.com/lushilin/p/6549665.html SimHash的应用通过上面的步骤,我们可以利用SimHash算法为每一个网页生成一个向量指纹,那么问题来了,如何判断2篇文本的相似性? 这里面主要应用到是海明距离. (1)什么是海明距离两个码字的对应比特取值不同的比特数称为这两个码字的海明距离.在一个有效编码集中,任意两个码字的海明距离的最小值称为该编码集的海明距离

HTAP数据库 PostgreSQL 场景与性能测试之 16 - (OLTP) 文本特征向量 - 相似特征(海明...)查询

标签 PostgreSQL , HTAP , OLTP , OLAP , 场景与性能测试背景 PostgreSQL是一个历史悠久的数据库,历史可以追溯到1973年,最早由2014计算机图灵奖得主,关系数据库的鼻祖Michael_Stonebraker 操刀设计,PostgreSQL具备与Oracle类似的功能.性能.架构以及稳定性. PostgreSQL社区的贡献者众多,来自全球各个行业,历经数年,PostgreSQL 每年发布一个大版本,以持久的生命力和稳定性著称. 2017年10月,Pos

基于局部敏感哈希的协同过滤算法之simHash算法

搜集了快一个月的资料,虽然不完全懂,但还是先慢慢写着吧,说不定就有思路了呢. 开源的最大好处是会让作者对脏乱臭的代码有羞耻感. 当一个做推荐系统的部门开始重视[数据清理,数据标柱,效果评测,数据统计,数据分析]这些所谓的脏活累活,这样的推荐系统才会有救. 求教GitHub的使用. 简单不等于傻逼. 我为什么说累:我又是一个习惯在聊天中思考前因后果的人,所以整个大脑高负荷运转.不过这样真不好,学习学成傻逼了. 研一的最大收获是让我明白原来以前仰慕的各种国家自然基金项目,原来都是可以浑水摸鱼忽悠过去

python实现simhash算法实例_python

Simhash的算法简单的来说就是,从海量文本中快速搜索和已知simhash相差小于k位的simhash集合,这里每个文本都可以用一个simhash值来代表,一个simhash有64bit,相似的文本,64bit也相似,论文中k的经验值为3.该方法的缺点如优点一样明显,主要有两点,对于短文本,k值很敏感:另一个是由于算法是以空间换时间,系统内存吃不消. 复制代码代码如下: #!/usr/bin/python# coding=utf-8class simhash: #构造函数 de

simhash短文本查找计算海量数据相似

前面的海量数据相似度计算实例 simhash和海明距离我们介绍了介绍了simhash的原理,大家应该感觉到了算法的魅力.但是随着业务的增长 simhash的数据也会暴增,如果一天100w,10天就1000w了.我们如果插入一条数据就要去比较1000w次的simhash,计算量还是蛮大,普通PC 比较1000w次海明距离需要 300ms ,和5000w数据比较需要1.8 s.看起来相似度计算不是很慢,还在秒级别.给大家算一笔账就知道了: 随着业务增长需要一个小时处理100w次,一个小时为36

字符串匹配算法之SimHash算法

由于实验室和互联网基本没啥关系,也就从来没有关注过数据挖掘相关的东西.在实际工作中,第一次接触到匹配和聚类等工作,虽然用一些简单的匹配算法可以做小数据的聚类,但数据量达到一定的时候就束手无策了. 所以,趁着周末把这方面的东西看了看,做个笔记. 来历 google的论文"detecting near-duplicates for web crawling"--------simhash. Google采用这种算法来解决万亿级别的网页的去重任务. 基本思想 simhash算法的主要思想是降

【BABY夜谈大数据】计算文本相似度

简单讲解上一章有提到过[基于关键词的空间向量模型]的算法,将用户的喜好以文档描述并转换成向量模型,对商品也是这么处理,然后再通过计算商品文档和用户偏好文档的余弦相似度. 文本相似度计算在信息检索.数据挖掘.机器翻译.文档复制检测等领域有着广泛的应用. 比如舆论控制,我们假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了数据库,那么当一个用户发微博时会先跟骂人句子的数据库进行比较,如果符合里面的句子就不让用户发出. 通常情况下,很多工程师就会想到用like或者where的sql语

simhash算法原理及实现

转载自: 点击打开链接背景如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路: 一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离.海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度. 另外一种方案是传统hash,我们考虑为每一个web文档通过hash的方式生成一个指纹(finger print). 下面,我们来分析下这两种方法. 采取第一种方法,若是只比较两篇文章的相似性还好,但如果是海量数据