[推荐系统]欧氏距离和余弦相似度

两者相同的地方，就是在机器学习中都可以用来计算相似度，但是两者的含义有很大差别，以我的理解就是：

前者是看成坐标系中两个点，来计算两点之间的距离；

后者是看成坐标系中两个向量，来计算两向量之间的夹角。

前者因为是点，所以一般指位置上的差别，即距离；

后者因为是向量，所以一般指方向上的差别，即所成夹角。

如下图所示：

数据项A和B在坐标图中当做点时，两者相似度为距离dist(A,B)，可通过欧氏距离（也叫欧几里得距离）公式计算：

当做向量时，两者相似度为cosθ，可通过余弦公式计算：

假设||A||、||B||表示向量A、B的2范数，例如向量[1,2,3]的2范数为：

√(1²+2²+3²) = √14

numpy中提供了范数的计算工具：linalg.norm()

所以计算cosθ起来非常方便（假定A、B均为列向量）：

num = float(A.T * B) #若为行向量则 A * B.T
denom = linalg.norm(A) * linalg.norm(B)
cos = num / denom #余弦值
sim = 0.5 + 0.5 * cos #归一化

因为有了linalg.norm()，欧氏距离公式实现起来更为方便：

dist = linalg.norm(A - B)
sim = 1.0 / (1.0 + dist) #归一化

关于归一化：

因为余弦值的范围是 [-1,+1] ，相似度计算时一般需要把值归一化到 [0,1]，一般通过如下方式：

sim = 0.5 + 0.5 * cosθ
若在欧氏距离公式中，取值范围会很大，一般通过如下方式归一化：

sim = 1 / (1 + dist(X,Y))

说完了原理，简单扯下实际意义，举个栗子吧：

例如某T恤从100块降到了50块（A(100,50)），某西装从1000块降到了500块（B(1000,500)）

那么T恤和西装都是降价了50%，两者的价格变动趋势一致，余弦相似度为最大值，即两者有很高的变化趋势相似度

但是从商品价格本身的角度来说，两者相差了好几百块的差距，欧氏距离较大，即两者有较低的价格相似度

-- EOF --

时间： 2024-10-20 05:31:52

[推荐系统]欧氏距离和余弦相似度的相关文章

通过余弦相似度算法计算用户相似度时具体怎么做

问题描述通过余弦相似度算法计算用户相似度时具体怎么做按用户购买的物品,具体怎么样计算...................... 解决方案 http://blog.csdn.net/cscmaker/article/details/7990600

在知识图谱构建阶段的实体对齐和属性值决策.判断一篇文章是否是你喜欢的文章.比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知识. 这篇文章主要是先叙述VSM和余弦相似度相关理论知识,然后引用阮一峰大神的例子进行解释,最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算. 一. 基础知识第一部分参考我的文章: 基于VSM的命名实体识别.歧义消解和指代消

皮尔逊余弦相似度有C 的代码实现库吗

问题描述皮尔逊余弦相似度有C 的代码实现库吗皮尔逊余弦相似度有C 的代码实现库吗最近需要用到这两个函数

相似度算法（http://blog.sina.com.cn/s/blog_62b83291010127bf.html）

在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means).当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下. 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, - xn),Y=(y1, y2, y3, - yn).下面来看看主要可以用哪些方法来衡量两者的差异,主要

《大数据架构和算法实现之路：电商系统的技术实战》——1.3　算法：朴素贝叶斯和K最近邻

1.3 算法:朴素贝叶斯和K最近邻 1.3.1 朴素贝叶斯朴素贝叶斯(Naive Bayes)分类是一种实用性很高的分类方法,在理解它之前,我们先来复习一下贝叶斯理论.贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分.贝叶斯决策就是在信息不完整的情况下,对部分未知的状态用主观概率进行估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策.其基本思想具体如下. 1)已知类条件概率密度参数表达式和先验概率. 2)利用贝叶斯公式转换成后验概率. 3)根据后验概率大小进行决

跟我一起数据挖掘（8）——相似性和相异性

前面说过了数据矩阵和相异性矩阵,并且对标称属性和二元属性的相异性进行了分析. 下面综合看一下矩阵的相异性和相似性. 相似性和相异性被许多数据挖掘技术所使用,如聚类.最近邻分类.异常检测等.两个对象之间的相似度是这两个对象相似程度的数值度量,通常相似度是非负值,并常常在0(不相似)和1(完全相似)之间取值.两个对象之间的相异度是这两个对象差异程度的数值度量,两个对象越相似,它们的相异度就越低,通常用"距离"作为相异度的同义词.数据对象之间相似性和相异性的度量有很多,如何选择度量方法依

Kmeans算法原理极其opencv实现(转帖)

原帖地址:http://blog.csdn.net/qll125596718/article/details/8243404 1.基本Kmeans算法[1] 选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数(采样数),n为维数空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数 2.注

[推荐系统]余弦计算相似度度量

余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大. 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度.下面介绍一个详细成熟的向量空间余弦相似度方法计算相似度向量空间余弦相似度(Cosine Similarity) 余弦相似度用向

[推荐系统]Mahout中相似度计算方法介绍

Mahout中相似度计算方法介绍在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法.下图用于实现相似度计算的组件之间的关系: 图1.项目相似度计算组件图2.用户相似度计算组件下面就几个重点相似度计算方法做介绍: 皮尔森相关度类名:PearsonCorrela