TF-IDF:传统IR的相关排序技术(二)

 

  既然是二,就是顺着上一篇文章《TF-IDF:传统IR的相关排序技术》写下来的。所以,有兴趣的同学请先看完第一篇文章再来继续。

  好,我们继续开始二。

  关于词频,只要你的分词工具够牛逼,就很好理解和实现。关于反文档频率,各位亲们,看到时会不会初时感觉很牛叉,然后细想会很有疑惑?

  逆文档频率(idf)=log(文档总数/包含关键词的文档数量)

  对,疑惑就在怎么获得“文档总数”与“包含关键词的文档数量”上。

  在搜索引擎上,可以有一个不错的替代方式,下面听我细细道来。

  每篇文章每个网页几乎都含有“的”这个字,嗯,你想到了吧。在搜索引擎中搜这个字,出来的结果数量可以理解为所有的文档数量,然后再搜你的目标词即为包含这个词的文档数量,这一数据也就得到了解决,下面是我弄的一个例子:

  


 

  好了,有了这些数据,我们接下来看看能够做些什么出来。

  将网站中每个网页进行分词,去掉语气助词停顿词之后按照tf-idf值从大到小进行排序。

  网页A={a1,b1,c1,d1,e1……z1}

  网页B={a1,b2,c1,d5,e2……z6}

  网页C={a2,b1,c2,d1,e2……z2}

  ……

  显然从{a1,b1,c1,d1,e1……z1}中就可以了解到网页A所表达的意思,B、C亦然。

  如果通过一个方法将A、B、C中的词进行比对,那岂不是就可以算出来……,你想对了,页面之间的相似程度。

  这个方法,就是余弦值。具体操作,如下:

  我们首先从A、B、C中选出前N个可以表达页面主题的词,组成一个集合。

  {a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}

  然后计算A、B、C页面针对这个集合中每个词的词频(如有必要,请使用相对词频),组成对应的向量。

  A=[2,1,3,5,0,0,0,0,1,0]

  B=[……]

  C=[……]

  请记住这个高中时就学到的公式。

  


 

  OK,经过此公式的计算,不但是页面之间的相似度,同样一个页面最相关的推荐文章也即可由此产生。

  有兴趣的同学们,请试验一下吧。

  转载请注明链接地址http://www.seosos.cn/search-engine/tf-idf-application.html。

时间: 2024-10-31 13:19:10

TF-IDF:传统IR的相关排序技术(二)的相关文章

TF-IDF:传统IR的相关排序技术

那一年,菊花还只是菊花,2B还是考试时涂卡使用的铅笔,黄瓜只有蔬菜的功能,信息检索技术(Information Retrieval)还只是简单的使用在图书馆.资料库等处. 也正是在那一年,信息检索的相关排序技术很风靡的是TF-IDF. 或许此刻你会十分想问,啥是TF-IDF?嗯,不捉急,在找寻这个问题的答案之前,先来看一个问题. 在一堆书籍里面,你想找寻和OOXX主题相关的资料(不要想歪),你用什么标准来判定这堆书籍里面的A比B更符合你的主题呢? 思考一分钟. 你或许会说,看一下这些书籍的名字,

展望2010年:海外最新Web相关的技术

2010 年的 Web 会是什么样,或者说,未来的 Internet 意味着什么,2010 会是值得关注的一年.本文从 5 个方面展望 2010 年的 Web,包括 HTML5,CSS3,字体服务技术:浏览器:社会媒体:JavaScript 框架:以及 SAAS. 1. CSS3, HTML5 以及 字体服务 CSS3,HTML5,以及 Typekit 一类的字体服务,将给 Web 设计师带来更多自由. CSS3 的新功能会让 Web 内容的展示变得更容易,从多背景图,到更强大的选择器,到颜色渐

《深入理解Elasticsearch(原书第2版)》一2.1.2 TF/IDF评分公式

2.1.2 TF/IDF评分公式 从Lucene 4.0版本起,Lucene引入了多种不同的打分公式,这一点或许你已经有所了解了.不过,我们还是希望在此探索一下默认的TF/IDF打分公式的一些细节.请记住,为了调节查询相关性,你并不需要深入理解这个公式的来龙去脉,但是了解它的工作原理却非常重要,因为这有助于简化相关度调优过程. 1. Lucene的理论评分公式 TF/IDF公式的理论形式如下: 上面的公式融合了布尔检索模型和向量空间检索模型.我们不打算在此讨论理论评分公式,而是直接跳到实践中使用

2016年云数据中心和相关设备技术发展及分析

近日,中国信通院发布<云计算白皮书(2016年)>,其中对云数据中心和相关设备技术发展及分析如下: (一)云计算发展对数据中心和设备提出新要求 作为信息社会的重要基础设施,随着云计算.大数据等相关业务需求的持续增加,数据中心产业发展迅速,2009至2015年,中国IDC市场规模增长了5倍以上,年均增长率超过30%,2015年中国IDC市场规模已达500亿元人民币.数据中心产业也进入了大规模的规划建设阶段,2013年至2015年,全国规划在建数据中心250个左右,其中超大型.大型数据中心100个

AJAX技术vs传统的ASP无刷新技术

ajax|刷新|无刷新    ajax技术的优势到底在哪里呢,不明白.看一个最简单的例子,假设用户注册的时候,判断用户输入的名字是否已经被占用,假设输入数字1:显示"OK"(表示正确,可以使用):输入其他字符:显示"Error" (表示错误,已经被占用). 用ajax技术实现 代码: t.htm <script> function f(){ var req =new ActiveXObject("Microsoft.XMLHTTP")

AJAX技术 vs 传统的ASP无刷新技术

ajax|刷新|无刷新 ajax技术的优势到底在哪里呢,不明白.看一个最简单的例子,假设用户注册的时候,判断用户输入的名字是否已经被占用,假设输入数字1:显示"OK"(表示正确,可以使用):输入其他字符:显示"Error" (表示错误,已经被占用). 用ajax技术实现 代码: t.htm <script>function f(){var req =new ActiveXObject("Microsoft.XMLHTTP"); req

XML相关的技术

xml   XHTML - 可扩展的 HTML      XHTML是HTML 4.01: 在 XML 中的再生成的产物. XHTML 1.0 是HTML的最新版本.更多内容请阅读 XHTML School.   CSS - 层叠样式表: 可以将CSS 格式表增加到XML文档中来提供显示信息.更多内容请阅读CSS School.   XSL - 可扩展的格式表语言:XSL 包括三部分:XML文档转换(重命名为XSLT, 见下面),一个格式匹配语法(重命名为XPath,见下面),以及一个格式化对象

《Web异步与实时交互——iframe AJAX WebSocket开发实战》—— 2.2 相关关键技术及工作原理

2.2 相关关键技术及工作原理 2.2.1 DOM DOM(Document Object Model)即文档对象模型.DOM是与系统平台和编程语言无关的W3C官方标准.W3C对DOM的定义是:"一个与系统平台和编程语言无关的接口,程序和脚本可以通过这个接口动态地对文档的内容.结构和样式进行访问和修改." DOM本质上是一个树形结构模型,它将整个页面映射为一个由层次节点组成的文档.每个节点都有一系列的子节点:每个子节点都有唯一的父节点:节点又分为元素节点和文本节点两种,元素节点中有属性

tf*idf 用于文本分类中的特征提取

tf*idf tf*idf,term frequency * inverse document frequency,词频 *逆向文档频率. 1.思想 TF-IDF是一种统计方法,用于评估某个词语在文档集合中的重要程度. 如果某个词语term在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词语具有很好的文档分类能力. 2.公式 tfij=termi在docj中的出现频次docj中的总词数,表示词语i在文档j中的频率. idfi=lg(文档总数包含词语i的文档数),含有词语i的文档