TF-IDF与余弦相似性的应用（二）找出相似文章

上一次，我用TF-IDF算法自动提取关键词。

今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。

为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。

为了简单起见，我们先从句子着手。

句子A：我喜欢看电视，不喜欢看电影。

句子B：我不喜欢看电视，也不喜欢看电影。

请问怎样才能计算上面两句话的相似程度？

基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

第一步，分词。

句子A：我/喜欢/看/电视，不/喜欢/看/电影。

句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

第二步，列出所有的词。

我，喜欢，看，电视，电影，不，也。

第三步，计算词频。

句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

第四步，写出词频向量。

句子A：[1, 2, 2, 1, 1, 1, 0]

句子B：[1, 2, 2, 1, 1, 2, 1]

到这里，问题就变成了如何计算这两个向量的相似程度。

我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

时间： 2025-01-30 04:11:17

TF-IDF与余弦相似性的应用（二）找出相似文章的相关文章

TF-IDF与余弦相似性的应用（二）：找出相似文章

上一次,我用TF-IDF算法自动提取关键词. 今天,我们再来研究另一个相关的问题.有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章.比如,"Google新闻"在主新闻下方,还提供多条相似的新闻. 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity).下面,我举一个例子来说明,什么是"余弦相似性". 为了简单起见,我们先从句子着手. 句子A:我喜欢看电视,不喜欢看电影. 句子B:我不喜欢看电视,也不喜欢看

SQL语句练习实例之二——找出销售冠军_MsSql

复制代码代码如下: --销售冠军 --问题:在公司中,老板走进来,要一张每个地区销量前3名的销售额与销售员的报表 --- create table salesdetail ( Area int not null, Saler nvarchar(20) not null, SalerId int not null, Sales money not null ) insert salesdetail select 1,'张三',15,3000 union select 1,'赵一',16,3500

SQL语句练习实例之二——找出销售冠军

PHP中TF-IDF与余弦相似性计算文章相似性

PHP计算相似度示例代码如下: 代码如下复制代码 <?php function similarity(array $vec1, array $vec2) { return dotProduct($vec1, $vec2) / (absVector($vec1) * absVector($vec2)); } function dotProduct(array $vec1, array $vec2) { $result = 0; foreach (array_keys($vec1

TF-IDF与余弦相似性的应用（一）：自动提取关键词

转自:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题. 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘.文本处理.信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果.它简单到都不需要高等数学,普通人只用 10

《深入理解Elasticsearch（原书第2版）》一2.1.2　TF/IDF评分公式

2.1.2 TF/IDF评分公式从Lucene 4.0版本起,Lucene引入了多种不同的打分公式,这一点或许你已经有所了解了.不过,我们还是希望在此探索一下默认的TF/IDF打分公式的一些细节.请记住,为了调节查询相关性,你并不需要深入理解这个公式的来龙去脉,但是了解它的工作原理却非常重要,因为这有助于简化相关度调优过程. 1. Lucene的理论评分公式 TF/IDF公式的理论形式如下: 上面的公式融合了布尔检索模型和向量空间检索模型.我们不打算在此讨论理论评分公式,而是直接跳到实践中使用

tf*idf 用于文本分类中的特征提取

tf*idf tf*idf,term frequency * inverse document frequency,词频 *逆向文档频率. 1.思想 TF-IDF是一种统计方法,用于评估某个词语在文档集合中的重要程度. 如果某个词语term在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词语具有很好的文档分类能力. 2.公式 tfij=termi在docj中的出现频次docj中的总词数,表示词语i在文档j中的频率. idfi=lg(文档总数包含词语i的文档数),含有词语i的文档

java-在一个3x3的二维矩阵里面随机的用0或1填充，找出该矩阵里面的相同行或者列

问题描述在一个3x3的二维矩阵里面随机的用0或1填充,找出该矩阵里面的相同行或者列 package exercise_7; public class Exercise7_10 { public static void main(String[] args) { int[][] test = new int[3][3]; for (int i = 0; i < test.length; i++) { for (int j = 0; j < test[i].length; j++) { int

javase-3x3的二维矩阵里面随机的用0或1填充，找出该矩阵里面的相同行或者列，没有输出

问题描述 3x3的二维矩阵里面随机的用0或1填充,找出该矩阵里面的相同行或者列,没有输出 package exercise_7; public class Exercise7_10 { public static void main(String[] args) { int[][] test = new int[3][3]; for (int i = 0; i < test.length; i++) { for (int j = 0; j < test[i].length; j++) { in