TF-IDF：传统IR的相关排序技术（二）

　　既然是二，就是顺着上一篇文章《TF-IDF：传统IR的相关排序技术》写下来的。所以，有兴趣的同学请先看完第一篇文章再来继续。

　　好，我们继续开始二。

　　关于词频，只要你的分词工具够牛逼，就很好理解和实现。关于反文档频率，各位亲们，看到时会不会初时感觉很牛叉，然后细想会很有疑惑?

　　逆文档频率(idf)=log(文档总数/包含关键词的文档数量)

　　对，疑惑就在怎么获得“文档总数”与“包含关键词的文档数量”上。

　　在搜索引擎上，可以有一个不错的替代方式，下面听我细细道来。

　　每篇文章每个网页几乎都含有“的”这个字，嗯，你想到了吧。在搜索引擎中搜这个字，出来的结果数量可以理解为所有的文档数量，然后再搜你的目标词即为包含这个词的文档数量，这一数据也就得到了解决，下面是我弄的一个例子：

　　好了，有了这些数据，我们接下来看看能够做些什么出来。

　　将网站中每个网页进行分词，去掉语气助词停顿词之后按照tf-idf值从大到小进行排序。

　　网页A={a1，b1，c1，d1，e1……z1}

　　网页B={a1，b2，c1，d5，e2……z6}

　　网页C={a2，b1，c2，d1，e2……z2}

　　……

　　显然从{a1，b1，c1，d1，e1……z1}中就可以了解到网页A所表达的意思，B、C亦然。

　　如果通过一个方法将A、B、C中的词进行比对，那岂不是就可以算出来……，你想对了，页面之间的相似程度。

　　这个方法，就是余弦值。具体操作，如下：

　　我们首先从A、B、C中选出前N个可以表达页面主题的词，组成一个集合。

　　{a1，c1，d1，e1，b2，d5，e2，a2，b1，c2}

　　然后计算A、B、C页面针对这个集合中每个词的词频(如有必要，请使用相对词频)，组成对应的向量。

　　A=[2,1,3,5,0,0,0,0,1,0]

　　B=[……]

　　C=[……]

　　请记住这个高中时就学到的公式。

　　OK，经过此公式的计算，不但是页面之间的相似度，同样一个页面最相关的推荐文章也即可由此产生。

　　有兴趣的同学们，请试验一下吧。

　　转载请注明链接地址http://www.seosos.cn/search-engine/tf-idf-application.html。

时间： 2024-10-31 13:19:10

TF-IDF：传统IR的相关排序技术（二）的相关文章

TF-IDF：传统IR的相关排序技术

那一年,菊花还只是菊花,2B还是考试时涂卡使用的铅笔,黄瓜只有蔬菜的功能,信息检索技术(Information Retrieval)还只是简单的使用在图书馆.资料库等处. 也正是在那一年,信息检索的相关排序技术很风靡的是TF-IDF. 或许此刻你会十分想问,啥是TF-IDF?嗯,不捉急,在找寻这个问题的答案之前,先来看一个问题. 在一堆书籍里面,你想找寻和OOXX主题相关的资料(不要想歪),你用什么标准来判定这堆书籍里面的A比B更符合你的主题呢? 思考一分钟. 你或许会说,看一下这些书籍的名字,

展望2010年：海外最新Web相关的技术

2010 年的 Web 会是什么样,或者说,未来的 Internet 意味着什么,2010 会是值得关注的一年.本文从 5 个方面展望 2010 年的 Web,包括 HTML5,CSS3,字体服务技术:浏览器:社会媒体:JavaScript 框架:以及 SAAS. 1. CSS3, HTML5 以及字体服务 CSS3,HTML5,以及 Typekit 一类的字体服务,将给 Web 设计师带来更多自由. CSS3 的新功能会让 Web 内容的展示变得更容易,从多背景图,到更强大的选择器,到颜色渐

《深入理解Elasticsearch（原书第2版）》一2.1.2　TF/IDF评分公式

2.1.2 TF/IDF评分公式从Lucene 4.0版本起,Lucene引入了多种不同的打分公式,这一点或许你已经有所了解了.不过,我们还是希望在此探索一下默认的TF/IDF打分公式的一些细节.请记住,为了调节查询相关性,你并不需要深入理解这个公式的来龙去脉,但是了解它的工作原理却非常重要,因为这有助于简化相关度调优过程. 1. Lucene的理论评分公式 TF/IDF公式的理论形式如下: 上面的公式融合了布尔检索模型和向量空间检索模型.我们不打算在此讨论理论评分公式,而是直接跳到实践中使用

2016年云数据中心和相关设备技术发展及分析

近日,中国信通院发布<云计算白皮书(2016年)>,其中对云数据中心和相关设备技术发展及分析如下: (一)云计算发展对数据中心和设备提出新要求作为信息社会的重要基础设施,随着云计算.大数据等相关业务需求的持续增加,数据中心产业发展迅速,2009至2015年,中国IDC市场规模增长了5倍以上,年均增长率超过30%,2015年中国IDC市场规模已达500亿元人民币.数据中心产业也进入了大规模的规划建设阶段,2013年至2015年,全国规划在建数据中心250个左右,其中超大型.大型数据中心100个

AJAX技术vs传统的ASP无刷新技术

ajax|刷新|无刷新 ajax技术的优势到底在哪里呢,不明白.看一个最简单的例子,假设用户注册的时候,判断用户输入的名字是否已经被占用,假设输入数字1:显示"OK"(表示正确,可以使用):输入其他字符:显示"Error" (表示错误,已经被占用). 用ajax技术实现代码: t.htm <script> function f(){ var req =new ActiveXObject("Microsoft.XMLHTTP")

AJAX技术 vs 传统的ASP无刷新技术

ajax|刷新|无刷新 ajax技术的优势到底在哪里呢,不明白.看一个最简单的例子,假设用户注册的时候,判断用户输入的名字是否已经被占用,假设输入数字1:显示"OK"(表示正确,可以使用):输入其他字符:显示"Error" (表示错误,已经被占用). 用ajax技术实现代码: t.htm <script>function f(){var req =new ActiveXObject("Microsoft.XMLHTTP"); req

XML相关的技术

xml XHTML - 可扩展的 HTML XHTML是HTML 4.01: 在 XML 中的再生成的产物. XHTML 1.0 是HTML的最新版本.更多内容请阅读 XHTML School. CSS - 层叠样式表: 可以将CSS 格式表增加到XML文档中来提供显示信息.更多内容请阅读CSS School. XSL - 可扩展的格式表语言:XSL 包括三部分:XML文档转换(重命名为XSLT, 见下面),一个格式匹配语法(重命名为XPath,见下面),以及一个格式化对象

《Web异步与实时交互——iframe AJAX WebSocket开发实战》—— 2.2　相关关键技术及工作原理

2.2 相关关键技术及工作原理 2.2.1 DOM DOM(Document Object Model)即文档对象模型.DOM是与系统平台和编程语言无关的W3C官方标准.W3C对DOM的定义是:"一个与系统平台和编程语言无关的接口,程序和脚本可以通过这个接口动态地对文档的内容.结构和样式进行访问和修改." DOM本质上是一个树形结构模型,它将整个页面映射为一个由层次节点组成的文档.每个节点都有一系列的子节点:每个子节点都有唯一的父节点:节点又分为元素节点和文本节点两种,元素节点中有属性

tf*idf 用于文本分类中的特征提取

tf*idf tf*idf,term frequency * inverse document frequency,词频 *逆向文档频率. 1.思想 TF-IDF是一种统计方法,用于评估某个词语在文档集合中的重要程度. 如果某个词语term在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词语具有很好的文档分类能力. 2.公式 tfij=termi在docj中的出现频次docj中的总词数,表示词语i在文档j中的频率. idfi=lg(文档总数包含词语i的文档数),含有词语i的文档