HillTop究竟原理如何值得Google如此青睐?

  今天我们将介绍超链分析的颠峰之作:HillTop算法,作为现在Google现在最核心的排名算法之一,网上不乏大量介绍她的文献。本文侧重于原始算法的分析,不考虑过多复杂因素,让您更容易理解算法本质。

  据Google技术负责人介绍,Google除了用PageRank衡量网页的重要程度以外,还有其它上百种因素来参与排序。其它搜索引擎也是如此,不可能按照某一种规则来进行搜索结果的排序。

  HillTop同样是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了优化。HillTop究竟原理如何,值得Google如此青睐?  

  其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的,有10个链接都是从“服装”相关的网站链接过来,那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。   

  与PageRank结合HillTop算法确定网页与">搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中,HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的做弊方法。 

  HillTop算法集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。

  HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。简单的说HillTop算法是针对热门查询关键词来对搜索结果重新排序的一种算法。之所以针对热门关键词,这是因为HillTop算法运行效率较低的原因。算法主要分为两个过程:

  一、 专家页面的寻找和评分;搜索引擎根据用户查询日志发现热门关键词后,开始针对这些热门关键词寻找专家页面,成为专家页的2个必要因素,1)必须拥有足够多而且不存在隶属关系的出链,2)至少存在一个短语包含该热门关键词的所有术语。确定专家页以后,在该页面上找出所有全部包含热门关键词中术语、或者差1到2两个术语的短语,将这些短语分为三个等级,分别为全部包含,差1个和差2个术语,分别对这个三等级计算等级分,等级是分对各个等级中所有短语得分的 和,而短语得分取决于这个短语在页面中位置,分数从高到低依次标题、头部和锚文本等等,然后的综合计算这个三个等级得分就得到专家分。以下举个简单的以 “汽车消费”这个热门关键词为例,“中国汽车消费网”的首页和友情链接页就是这个关键词的专家页面,因为他具有足够多而且不隶属315che.com主机域名和同C类ip的出链,同时标题中的“中国汽车消费网”也包含“汽车”和“消费”这两个术语。接下来评分,先算第一等级(包含所有术语的短语)的得分,短语“中国汽车消费网”在标题中得到16分(假设),以及在锚文本中“中国汽车消费理财倾向大调查”得了1分,那么第一等级得分为17分,再算第二等级(差一个术语),第三等级(差两个术语)。这样再算三个等级得分的加权和,就是专家分。

  二、 对目标页评分;一个专家页对目标页的评分等于专家本身分值×专家页可区分的短语数量。取前N个指向目标页的专家页,对于多个同一隶属的专家页指向该目标页,取分值最高的专家页,然后这些专家页对目标网页的评分的和就得到,这个页面对应这个热门关键词的得分,有人称之为行业得分。

  我们可以看到HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。

  总结:HillTop算法存在一种博弈的思想,在链接方面同行业的网站既需要竞争更需要合作,只有被同行“认可”的网站对热门关键关键词的查询才会被排在前面。HillTop基本毁灭了小网站对热门关键词的奢望,除非你对热门关键词有超强的预期能力,但是这种流量只会持续很短的时间。当然HillTop只是排名的一个重要因素,并不是全部。

  本文由中国汽车消费网(http://www.315che.com/) SEO研究中心撰写。转载请注明。

时间: 2024-08-22 20:36:12

HillTop究竟原理如何值得Google如此青睐?的相关文章

“HillTop”论 - 探索Google排名新算法(1)

     2003的11月16号--这个日子可能会成为搜索引擎历史的一个重要里程碑.正是在这次被大家称为" Google Florida"的更新中,Google对其排名算法进行了大规模改动,并导致很多原来排名很好的网站在一夜之间如梦魇般直落孙山.每个更新周期可能会对排名算法做一些小小的改动Google一贯的做法,但这次如此大手笔的改动,不能不让网站管理员乃至整个搜索引擎优化行业都倍感震惊和始料不及.不但很多原来排名一直保持前矛的商业网站丢掉了排名,同时亦使得许多做网站排名优化的公司都受

Google Interview University - 坚持完成这套学习手册,你就可以去 Google 面试了

本文讲的是Google Interview University - 坚持完成这套学习手册,你就可以去 Google 面试了, 这是我为了从 web 开发者(自学.非计算机科学学位)蜕变至 Google 软件工程师所制定的计划,其内容历时数月. 这一长列表是从 Google 的指导笔记 中萃取出来并进行扩展.因此,有些事情你必须去了解一下.我在列表的底部添加了一些额外项,用于解决面试中可能会出现的问题.这些额外项大部分是来自于 Steve Yegge 的"得到在 Google 工作的机会&quo

Google排名链接篇

关于Google排名有很多人都知道链接是个非常重要的因素,还有很多人都在说链接工厂的原理.不过Google排名或者其他的搜索引擎中,你的链接多了,这里的链接多了指的是有效的链接,或者说链接的质量都是比较高的,不是那种作弊啊什么的网站,基本上这样的例子很常见,就是说一个网站刚刚做好,就在搜索引擎上被抓到了,这是什么原因呢?道路很简单就是做了友情链接,其实这没有什么奥妙的,相对于一些冷门的关键词,你只要在其title里加些关键词,关键词优化下,描述写下,alt属性加下,再做下友情链接,那么你的网站所

(转) 坚持完成这套学习手册,你就可以去 Google 面试了

  坚持完成这套学习手册,你就可以去 Google 面试了 系统 指针 value Google 面试 阅读6138    本文为掘金投稿,译文出自:掘金翻译计划 原文地址:Google Interview University 原文作者:John Washam 译者:Aleen,Newton,bobmayuze,Jaeger,sqrthree 友情提醒:文章较长,需耐心阅读. 这是? 这是我为了从 Web 开发者(自学.非计算机科学学位)蜕变至 Google 软件工程师所制定的计划,其内容历时

Google“英译中”将脏话翻成“中国如何”

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 核心提示:昨天一网友发帖号召网民"抵制Google翻译工具",帖子指责Google翻译工具出现离奇"张冠李戴",一些英文贬义词脏话被翻成"中国如何",如"I thought this was shame"(我认为这是耻辱)被译为"我认为这是中国的耻辱&q

Google如何评价HTML5

微软的回应是,对于那些未经测试的技术应该抱谨慎态度,然而更接近事实的解释恐怕是,微软在自己的 Silver light 中有自己的播放技术. 从html到xhtml再到html5. 作为下一代HTML语言,HTML5受到了很大的关注.我们来看看网络巨头以及web新技术的领头羊Google遇到HTML5会怎么说.在 Google I/O 的开发者大会,Google 工程副总裁 Vic Gundotra 表示了他们对下一代 HTML 语言,HTML 5 的承诺.尽管 HTML 5 还处在草案阶段,W

Google Analytics获得GOOGLE真正的收录网站数据指标

我们的站点究竟有多少页面被 Google 收录(装的技术性一点就叫:"索引")呢? 这个提问所引发的问题时常出现在SEO世界中,并且,其曝光率大有蔓延飞涨之势.问题通常都是由于某个像下列这样的搜索行为所引起的: Google的搜索结果生成根域名下有93800个页面被搜索引擎索引.这听起来美妙不堪,但是当我们在一周后使用同样的搜索请求时,索引的数字却变成了大约75000个,这时我在大概一分钟后对Google.co.uk使用同样的搜索请求,返回的极富戏剧性的数字结果更让人感到困惑: 我们在

提高网站在Google中的排名 ——面向搜索引擎的网站设计

google|排名|设计|搜索引擎 内容摘要:目前中文网站在整个互联网中的影响还比较小,这主要是由于中文网站总体的水平(技术上,内容上)都还相对落后造成的,最主要的表现有: 行业知识:不知道搜索引擎对吸引的新用户的重要性,在搜索引擎排名服务中追求"傻瓜相关",购买一些其实没有太多实际意义的行业关键词.其实能够用户输入的关键词越多,真对性越强,价值越高.用户能够直接定位到产品具体内容页比到网站首页有价值的多: 发布技术:网站的网页进入Google的索引量非常小,动态网页仍是主要发布机制,

当 HTML 5 遇见 Google

在 Google I/O 的开发者大会,Google 工程副总裁 Vic Gundotra 表示了他们对下一代 HTML 语言,HTML 5 的承诺.尽管 HTML 5 还处在草案阶段,W3C 的委员会还在针对这一草案进行漫长的讨论,然而 HTML 5 已经被广泛实现,或者作为一种实验性的演示,或者已经成为某些 Web 程序的核心. HTML 5 为我们提供了不同的机会,Gundotra 说,他同时提到,在过去的10年,JavaScript 在主流浏览器中的速度已经提升了接近100倍,这大大改善