让新手朋友能更好的理解简单的Hits算法

&">nbsp;   今天我们将介绍超链分析的颠峰之作:HillTop算法,作为现在Google现在最核心的排名算法之一,网上不乏大量介绍她的文献。本文侧重于原始算法的分析,不考虑过多复杂因素,让您更容易理解算法本质。

HillTop算法集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。

  搜索引擎算法介绍之HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。Hits算法由乔恩·克莱因伯格(Jon Kleinberg)于1998年设计提出,该算法的研究工作启发了PageRank算法的诞生。HITS算法的主要思想是:网页的重要程度是与所查询的主题相关的。

  我们可以这样理解:HITS算法是基于主题来衡量网页的重要程度,相对不同主题,同一网页的重要程度也是不同的。例如,百度对于主题“搜索引擎”和主题“湖南SEO”的重要程度是不同的。

  HITS算法使用了两个重要的概念:权威网页(authority)和中心网页(hub)。

  例如:Google、Baidu、Yahoo!、bing、sogou、soso等这些搜索引擎相对于主题“搜索引擎”来说就是权威网页(authority),因为这些网页会被大量的超链接指向。

  http://www.pyy1990.cn/post/Hits-Algorithm.html这个页面链接了这些权威网页(authority),则这个页面可以称为主题“搜索引擎”的中心网页(hub)。

  HITS算法发现,在很多情况下,同一主题下的权威网页(authority)之间并不存在相互的链接。所以,权威网页(authority)通常都是通过中心网页(hub)发生关联的。

  HITS算法描述了权威网页(authority)和中心网页(hub)之间的一种依赖关系:一个好的中心网页(hub)应该指向很多好的权威性网页(authority),而一个好的权威性网页(authority)应该被很多好的中心性网页(hub)所指向。

  同时产生的两个问题是:

  HITS算法将链接与内容分开来考虑,仅考虑网页之间的链接结构来分析页面的权威性一个页面与另一页面的引用有多种情况,如为了导航或为了付费广告。

  第一个问题提出的解决方法是:利用超链文字及其周围文字与关键字相匹配而计算超链权值,并引入系数对周围文字和超链文字进行权值的相对控制。

  第二个问题的解决方法是:HITS算法引入了时间参数,即利用对一链接引用的时问长短来评价是否为正常引用。

  关于HITS算法的原理,前面已经有一篇文章进行简单的介绍了。其实HITS算法相当的复杂,并非几句话所能概括。本文是收集整理而成,旨在让和小彭一样的新手朋友能更好的理解简单的Hits算法。

HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。简单的说HillTop算法是针对热门查询关键词来对搜索结果重新排序的一种算法。之所以针对热门关键词,这是因为HillTop算法运行效率较低的原因。算法主要分为两个过程:

一、专家页面的寻找和评分;搜索引擎根据用户查询日志发现热门关键词后,开始针对这些热门关键词寻找专家页面,成为专家页的2个必要因素,1)必须拥有足够多而且不存在隶属关系的出链,2)至少存在一个短语包含该热门关键词的所有术语。确定专家页以后,在该页面上找出所有全部包含热门关键词中术语、或者差1到2两个术语的短语,将这些短语分为三个等级,分别为全部包含,差1个和差2个术语,分别对这个三等级计算等级分,等级是分对各个等级中所有短语得分的和,而短语得分取决于这个短语在页面中位置,分数从高到低依次标题、头部和锚文本等等,然后的综合计算这个三个等级得分就得到专家分。以下举个简单的以“汽车消费”这个热门关键词为例,“中国汽车消费网”的首页和友情链接页就是这个关键词的专家页面,因为他具有足够多而且不隶属315che.com主机域名和同C类ip的出链,同时标题中的“中国汽车消费网”也包含“汽车”和“消费”这两个术语。接下来评分,先算第一等级(包含所有术语的短语)的得分,短语“中国汽车消费网”在标题中得到16分(假设),以及在锚文本中“中国汽车消费理财倾向大调查”得了1分,那么第一等级得分为17分,再算第二等级(差一个术语),第三等级(差两个术语)。这样再算三个等级得分的加权和,就是专家分。

二、对目标页评分;一个专家页对目标页的评分等于专家本身分值×专家页可区分的短语数量。取前N个指向目标页的专家页,对于多个同一隶属的专家页指向该目标页,取分值最高的专家页,然后这些专家页对目标网页的评分的和就得到,这个页面对应这个热门关键词的得分,有人称之为行业得分。

我们可以看到HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。

总结:HillTop算法存在一种博弈的思想,在链接方面同行业的网站既需要竞争更需要合作,只有被同行“认可”的网站对热门关键关键词的查询才会被排在前面。HillTop基本毁灭了小网站对热门关键词的奢望,除非你对热门关键词有超强的预期能力,但是这种流量只会持续很短的时间。当然HillTop只是排名的一个重要因素,并不是全部。

  原文:小彭@长沙SEO http://www.pyy1990.cn/ 转载请保留。

时间: 2025-01-20 09:48:53

让新手朋友能更好的理解简单的Hits算法的相关文章

如何更好的理解用户反馈? | 上

及时收集有用的用户反馈是一个长期的过程. 当你已经清理了那些无用的反馈(例如超出现实的,纯粹假设的.来自第三方感受的),你仍然应该决定你应该听从哪些用户反馈,并想办法去理解它们的含义. 这就是我们为什么要将<如何更好的理解用户反馈>分成两部分的原因.在这篇文章中,你将聚焦于如何分析和理解对你的产品最重要的那些用户反馈类型.(在第二部分中,我们将说明如何处理这些反馈) 1.反馈问题的用户类型很重要 你是否同样重视那些聪明人给你的所有有用的建议? 不太可能. 你可能会更相信那些你认识时间很长的朋友

新手朋友做好这五点流量很难不上来

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 作为一个SEO工作者,每天都希望后台的流量能够直直上升,如果能够这样,不仅满足了自己的心声同时也是对自己的付出给予了肯定.而想要看到流量直线上升也并非是一件难事,如果你能坚持做到以下五点,那就可以美梦成真. 一.坚持手工,杜绝群发诱惑 群发或许可以带来一时的流量,但却违反了搜索引擎规则.搜索引擎的出游戏的一方,而我们却是玩游戏的一方,遵守规则

ibuy淘讯网:与新手朋友分享做淘客站一些实用的心得体会

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 随着淘宝联盟的大力推广与发展,淘宝客自然地遍地开花,其中很多是由于无奈政策转战淘客的站长,当然也很多新手朋友,甚至有些刚接触网络的朋友看到一些淘客老鸟每月赚得盘满钵满更是心花怒放:下定决心,投身于淘客....ibuy淘讯网站长也是来自他们中的一员,一个从对网络一窍不通的菜鸟到自学修改别人程序,做垃圾站,到今天的淘宝客,每一次的尝试都能让我受益

如何更好的理解存储的重要性

由于大量的公司治理法规.网页数量成倍增加,导致以数字格式保存音频,视频及静态图像的需求不 断增长,如何控制存储成为了过去几年中各大公司CIO们(首席信息官)所关注的焦点.对大多数以磁盘.磁带和存储服务器为主打产品的公司来说,这些海量数据无疑是件好事,这意味着,他们能向用户提供存储媒介以解决数以亿计的信息存储问题,从而获得较大的利润. 然而,很少有公司像日本日立数据系统公司(HDS)这一存储巨人一样,将其自身定位于终端存储数据库与工具供应商,从而使得对海量信息的控制更加智能化. Hu Yoshid

c语言-新手对c还有很多不理解,求帮忙解决下问题

问题描述 新手对c还有很多不理解,求帮忙解决下问题 问题描述: 编写一个程序,首先提示用户"Hi, I love you!",然后输入"Do you love me (Y/N)?".如果用户输入"y"或"Y",打印"So great! KISS!",然后退出.如果用户输入"n"或"N",则继续询问"Do you love me (Y/N)?".如果

[JAVA &amp;#183; 初级]:10.如何更好的理解多态

说道多态,一定离不开其它两大特性:封装和继承.而多态是在它们的基础之上表现而来的,息息相关.在记忆中,每一次学习面向对象的时候,都与这三大特性有扯不开的关系,其是面向对象的重点,当然也算是难点.但是,它们就像是一层窗户纸,只要有一个缝隙,你就完全可以搞懂什么是面向对象.下面来看看关于多态的一些介绍吧: 是什么? 文学角度:一千个读者就有一千零一个哈姆雷特: 公司主管角度:老板交代下来相同任务,每个人完成的情况不同: 专业角度:同种类的多个对象,在接收到同一个消息时却产生了不同反应和效果: 从代码

《代码大全》学习笔记(2):利用隐喻对编程进行更深刻的理解

2.1 隐喻的重要性       重大发现往往是从类比中产生的.通过把一个你所陌生的事物与你所熟知的事物比较,你会对它有进一步的认识,从而形成你对它的独到的深刻理解,这种隐喻方法被称之为"模型化".        模型的力量在于它能提供生动形象的概念而易被人整个接受. 2.2 如何使用软件隐喻         一个公式是一套完整建立的.进行某一些任务的规则:它的结果是可以预测的.确定的,并不取决于运气.         启发是一种帮助你寻求答案的技术,它的结果往往和运气有关.     

java编程思想-如何更好的理解java中的面向对象

问题描述 如何更好的理解java中的面向对象 现在学到java的面向对象,有时候会把很多知识点弄混乱,怎么样才能把面向对象的知识点梳理好啊 解决方案 万物皆对象!!!你可以这样理解,面向对象的思想主要是让我们程序员更好的理解编程,因为和机器交流语法比较难懂,所有为了让编程更简单人们就提出了面向对象的思想.就是我们将任何一个东西都可以想象成一个有血有肉的.比如一本书.我们可以知道书可以有书名,可以页数,可以有类容等等这就是我们所说的属性,书可能还有翻页等这些动作这就相当于方法(有些语言叫做函数)了

谨以此篇献给徘徊在网络边缘的新手朋友

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 4年的时间,网络中的各种酸甜苦辣体验了不少,自己也曾经因为年少无知在网络中无情的骗了N次,回过头来看到现在的网络新手们前仆后继的涌进互联网,到处碰壁,甚至丧失做站的信心,我只想对大家说一句,别怕,挺起胸膛来,坚持自己的信念,努力的走下去! 看到新手们的盲目无措,看到新手们由于自己的经验不足,无数次的在网络中受骗,心里真的很不是滋味,可以说是痛