HITS算法在搜索引擎中的定位

  HITS算法,网上有比较详细介绍的文章并不多。从现在搜索引擎算法来看,HITS算法扮演着很重要的位置。是比较权威和使用广泛的算法之一。HITS算法要比PageRank算法复杂些,但可以用简单的形式描述其本质,同时也会给出其工作原理的示例。

  HITS算法,首先要做的是判别与主题相关的网页集合,要分别为每个提交给搜索引擎的用户查询判定出一个主题相关网页集。如果网页满足下面的条件,便可判定它们是与主题相关的:

  a)这些网页属于一个网页集合,且网页集合中含有与用户查询最相关的文本。

  b)这些网页链向满足a条件的网页,或是满足a条件的网页链向该网页。

  这里有一个重要的链接假设是部分基于“链接——内容”假设的。也就是说,如果一个网页与主题相关的网页有链接关系,即使它并不含有与主题相匹配的文本信息(至少从用户查询文本来看是这样的),该网页也可能是与主题相关的。

  即使是根据文本内容判定出来的相关网页,有些时候也并不相关,因为在实践中很难判定主题相关性,尤其是那些本身就有歧义的查询。一个经典的例子就是“美洲虎”。用户可能是想要查询动物,或以该词命名的汽车的相关信息。结果,返回的与主题相关的网页却是不全的,且只是部分相关的。但Kleinberg的试验表明,这并不是一个严重问题。

  算法的第二部分是为主题相关集合中的每个页面算出其中心度和权威度。算法使用了与PageRank算法中相似的投票方法,同时也采用了逆向投票机制,使得每个网页都可以给链向它的网页投票。HITS算法的结果是为每个网页赋予一个中心度和一个权威度,而不是像前面所说的那样,只是将它们区分为中心网页和权威网页。

  简化的HITS算法:

  第一阶段:找出与查询相关或主题相关的网页集合

  1.根据搜索引擎中用户输入的文本查询,找出N个与该查询最为相关的文本网页,其中N是预先设定的参数;

  2.向集合中添加所有与匹配网页存在着链接关系(链向或者被链向)的网页;

  3.移除所有的站内链接;

  第二阶段:初始化每个网页的中心度和权威度

  4.为每个网页赋予一个权威权重X和中心权重y,如X=y=1;

  第三阶段:重复投票过程

  5.统计每个网页的入链网页的中心度之和,计算出每个网页的权威权重;

  6.统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重;

  7.将所有网页的中心度都除以最高中心度以将其标准化,将所有网页的权威度都除以最高权威度以将其标准化;

  8.重复第5步到第7步N次,而Kleinberg在一些言论当中是建议重复20次;

  第四阶段:报告结果

  9.返回一张排好序的网页列表,列表中的网页有些具有较高的中心度,有些则具有较高的权威度,这样用户自己就可以选出他们认为是最好的那种类型的网页(Kleinberg建议选择前5—10个中心网页和前5-10个权威网页)。

时间: 2024-11-01 00:50:41

HITS算法在搜索引擎中的定位的相关文章

让新手朋友能更好的理解简单的Hits算法

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   今天我们将介绍超链分析的颠峰之作:HillTop算法,作为现在Google现在最核心的排名算法之一,网上不乏大量介绍她的文献.本文侧重于原始算法的分析,不考虑过多复杂因素,让您更容易理解算法本质. HillTop算法集PageRank,HITs.相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在

浅谈友情链接在搜索引擎中的占比

友情链接是属于SEO意义中的高质量外链,对网站的SEO有重要意义.友情链接由于是互相链接,在各大搜索引擎算法中所占的权重比都是不一样的.因此我们如果要针对某一个或几个搜索引擎做SEO优化,那么我们就必须要知道友情链接在对应的搜索引擎中的占比. 从广大SEO从业者对于搜索引擎排名的算法研究中可以看出,友情链接是排在前列的影响排名的因素.由于搜搜和搜狗合并了,所以我们只研究国内百度.google.360.搜狗(搜搜)四大搜索引擎. 先说百度. 百度曾经是最重视友情链接的,友情链接在网站优化要素中排名

网站怎样的流量结构在搜索引擎中最安全

  做SEO的应该利用搜索引擎,然后摆脱搜索引擎,这句话的意思是我们从搜索引擎中获取用户,但我们的网站需要留住用户,使用户不再从搜索引擎中进入我们的网站,就算是用户有从搜索引擎进入到一个网站的习惯也需要引导用户搜索我们站点的品牌词来到我们的网站.而不是越做SEO对搜索流量的依赖越大,这样只会陷入一种痛苦或者隐忧之中.大家知道现在中国的主流搜索引擎百度不是很稳定,误杀的现象很多,自从算法升级以来向来都是摆出一副宁可杀错不可放过的姿态.所以我们研究网站的流量结构就会变的异常的重要,也好让大家对网站未

Go在百万亿级搜索引擎中的应用

Poseidon 系统是由 360 开源的日志搜索平台,目前已经用到了生产环节中,可以在数百万亿条.数百 PB 大小的日志数据中快速分析和检索特定字符串.因为 Golang 得天独厚的支持并发编程,Poseidon 的核心搜索引擎.发报器.查询代理是用 Golang 开发的,在核心引擎查询.多天查询.多天数据异步下载中大量使用了 goroutine+channel . 大家上午好,我是郭军,很高兴今天在这里和大家交流.我今天演讲题目,Golang 在百万亿搜索引擎中的应用.Poseidon在希腊

《算法导论(原书第3版)》一第1章 算法在计算中的作用 - 1.1 算法

第1章 算法在计算中的作用 什么是算法?为什么算法值得研究?相对于计算机中使用的其他技术来说算法的作用是什么?本章我们将回答这些问题. 1.1 算法 非形式地说,算法(algorithm)就是任何良定义的计算过程,该过程取某个值或值的集合作为输入并产生某个值或值的集合作为输出.这样算法就是把输入转换成输出的计算步骤的一个序列. 我们也可以把算法看成是用于求解良说明的计算问题的工具.一般来说,问题陈述说明了期望的输入/输出关系.算法则描述一个特定的计算过程来实现该输入/输出关系. 例如,我们可能需

回顾以往:搜索引擎中名副其实的宠儿google

中介交易 SEO诊断 淘宝客 云主机 技术大厅 现在人们把越来越多的时间花在网上,网络正在变成一个很大的媒体.中国互联网络信息中心统计,截至2009年6月底,中国网民已经达到3.38亿人,搜索引擎用户规模达到2.35亿人,在网民中的使用率达到69.4%,成为网民重要的网络应用之一,甚至超过了电子邮件. 随着搜索引擎的广泛应用,搜索引擎行业也是一片繁荣昌盛,国内有百度.搜搜.搜狗.有道,国外有Google.Bing.Yahoo等,这些搜索引擎参与到针对搜索用户的激烈的竞争中,以求在这个庞大的市场中

索引库和索引库在搜索引擎中起到什么作用

摘要: 在网络公司做过程序开发的朋友都知道,我们通常用的数据库搜索技术就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也 在网络公司做过程序开发的朋友都知道,我们通常用的数据库搜索技术就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也就是这样: 用户输入一个词汇,搜索引擎从他的数据库中找到匹配的内容,再以有序的排列展现给用户,搜索引擎每天就是不厌其烦地不断重复这些操作.看似一切很正常,我们用数据来

音乐搜索在搜索引擎中的优化技巧

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   搜索引擎(search engine)是指根据一定的策略.运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统.从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表. 互联网发展早期,以雅虎为代表的网站分类目录查询非常流行.网站分类目

社会媒体在搜索引擎中的作用

摘要: 社会媒体,可用于多个领域,如品牌,客户服务和公关等,同样社会化媒体也可以用于支持网站在自然搜索中的排名,能够在提高搜索排名中起积极作用. 当然,社会媒体链接和你的网 社会媒体,可用于多个领域,如品牌,客户服务和公关等,同样社会化媒体也可以用于支持网站在自然搜索中的排名,能够在提高搜索排名中起积极作用. 当然,社会媒体链接和你的网站正常的链接是不一样的,像Facebook.Google Buzz.微博等,你把自己的文章分享到这些社会媒体中,原来的URL是经过处理的. 社会媒体在搜索引擎中的