谷歌的Pagerank算法的核心思想

摘要: 搜索引擎的算法一直以来都是最核心的运营机密,很多SEO优化工作者也都是对搜索引擎算法停留在了解原理的基础之上,我们能做的就是在每一次搜索引擎更新算法的时候依据大量网站

搜索引擎的算法一直以来都是最核心的运营机密,很多SEO优化工作者也都是对搜索引擎算法停留在了解原理的基础之上,我们能做的就是在每一次搜索引擎更新算法的时候依据大量网站的搜索情况进行猜测。一个真正了解搜索引擎的SEO从业人员势必会让自己在优化的道路上左右逢源,为了更好的和搜索引擎对话,为了能够更好的对网站进行改善优化,SEO优化联盟建议大家要认认真真的去了解搜索引擎算法的工作原理并按照算法的特点来有针对的进行优化工作。

搜索引擎算法的存在一方面是为了能够为用户提供更准确的搜索结果,另一方面就是为了使SEO优化行业更加规范,避免那些使用作弊手段来欺骗搜索引擎的网站优化方法。算法最终目的是为了在用户使用搜索引擎搜索关键词的时候能够将与查询主题高度相关的一些网页集合展现出来,而目前基于查询的分析算法中主要分为两个大类,一个是谷歌的基于链接分析的Pagerank算法,另一个就是基于查询主题进行分析的Hits算法,这两种算法是目前搜索引擎使用最为广泛的算法,这两种算法各有各的特点,也各有各的缺点不足,那么作为SEO从业者我们该如何正确的去学习这两种算法来为自己的工作做准备呢?也许你会一脸茫然,但是你会在这篇文章中更好的对着两种算法进行了解。

谷歌的Pagerank算法的简单分析

1、Pagerank算法的核心思想:

注意谷歌Pagerank算法是基于随机冲浪模型的最好典范(指的是该算法使用的前提是用户访问网页时随机的),谷歌的Pagerank算法的最基本思想是基于网站之间的相互投票,即我们常说的网站之间互相指向,如果判断一个网站是高质量站点时,那么该网站应该是被很多高质量的网站引用又或者是该网站引用了大量的高质量权威的站点,也就如下图卡通形象所示,所

以对于谷歌来说,我们在优化的时候就应该将该算法的核心思想运用得当,在优化的时候我们尝试将自己的站点和高质量的权威网站进行链接,抑或是通过自己的关

系让自己的站点被一些高权重的站点链接上去,这样一来,无论是在谷歌还是在百度搜索引擎中,我们的站点在他们看来也会是具有高质量的站点。所以SEO优化

联盟建议大家在针对谷歌优化的时候要尽力的建设好网站的外链和内部链接,用链接来增加网站或者是网站内容页面的投票数,进而增加相关重要网页的权重。

2、Pagerank算法的计算要素:

pagerank算法的计算方法是基于一个与当前网站页面相关的所有网页集合(主要是指该网页

指向和被指向的网页集合),也就是说将该网页置身与一个比较大的方阵之中,在这个方阵之后网页与网页之间是通过互相指向的有向图来确定关系同时进行网页

PR值的传递,假如网也的PR值为1那么相对于整体来说该页上从其他特定网页上继承过来的权重应该是PR(t)/L(t)[其中PR(t)指的是特定网页的pr值,L(t)指的是该网页的出站链接数目],

但是我们知道这是理想状态下的计算方法,一个网页上影响pr值的还有很多噪点,比如网页中的广告链接、网站之间相互链接的连接点是不能再此时同时计算出去

的,也就是说该算法还需呀一个规范化的因子来纠正结果的正确性(规范化因子我们命名为d,通常d值取值为0.85)所以实际上谷歌Pagerank算法用

来计算网站权重的计算公式应该是一个抛去其他噪点因素的干净公式:

PR(A)=(1-d)+d[PR(t)/C(t1)+...+PR(tn)/C(tn)]

从公式中我们还可以看到一个很令人困惑的问题,那就是该公式中并没有将相互链接的网站或者是形成闭环的网页链接(类似站群思想,将网页之间形成闭环来积累PR值)

拿出来单独解释,对于相互之间互相链接的网站我们通过分析可以知道,二者之间的pr值如果在没有出站链接的情况下只会互相传递,不会向外流失,久而久之

pr值就会慢慢积累越来越高,这对搜索引擎来说是不够友好的,所以在实际的pagerank算法中在计算的过程中是将这种闭环链接单独进行计算,同时也引

入了衰退因子(下文中的E(U)),防止pr值过多的积累,该算法的结构如下:

所以对这部分的权重计算公式可以简单的列举如下:

主要思想就是该部分网页的权重R'(u)等于相互链接的网页pr值R(v)与网站的出战链接数目N(v)进行迭代计算,同时引入衰退因子E(U)来现在权重的积累。

3、Pagerank算法的优缺点分析:

pagerank算法将互联网中大多数的网页通过基于链接来计算网页质量的方式进行排名,为搜索引擎用户提供较好的基于链接查询的搜索结果,同时该算法能够进行离线分析处理,大大缩短了搜索引擎用户的服务响应时间,因此就目前来说该算法是搜索引擎应用最好的算法,但是pagerank算法的缺点也是相当明显的,在上文中我们也进行了讨论,那就是该算法在初期的时候一直都是基于链接分析的,而一个网页上的链接包含很多:比如广告链接、功能链接、导航链接、以及多次重复的无效链接等等,这些链接都会被该算法计算在pr值传递之中,所以不能够对网页降噪之后在进行处理,同时,由于是基于链接分析,导致pagerank算法计算出来的搜索结果往往会偏离实际的搜索主题,也就是说该算法不能很好的基于主题查询,当我们在进行查询的时候,pagerank算法会自动将计算出来的主题相关网页连接到的不相关页面也集中起来,这就导致该出现的重要网页没有出现,而不该出现的与主题不相关的页面却出现了,这对整个用户来说都是不合理的。

以上是自己对谷歌搜索引擎Pagerank算法的一些简单认识,在实际操作过程中SEO优化联盟肯定会存在很多的不足以及错误,如果细心的你发现了,请你及时的和我联系。

时间: 2024-09-19 09:24:13

谷歌的Pagerank算法的核心思想的相关文章

深入浅出PageRank算法

PageRank算法 PageRank算法是谷歌曾经独步天下的"倚天剑",该算法由Larry Page和http://www.aliyun.com/zixun/aggregation/16959.html">Sergey Brin在斯坦福大学读研时发明的,论文点击下载: The PageRank Citation Ranking: Bringing Order to the Web. 本文首先通过一些参考文献引出问题,然后给出了PageRank的几种实现算法,最后将其推

SEO的核心思想

昨天讲了一堂公开课,课程的主要内容是<SEO的核心思想>,今天再把课程内容梳理一下,欢迎大家拍砖. 经与权是中国古代哲学思想的重要内容.经为常,持久不变.权为时措之宜,随机而变.经权之道即指重要思想坚持不变,集体策略因时而变.今天我讲SEO的核心思想,其实就是讲SEO的经,与之对应的则是权,SEO的权指具体的优化技巧等内容.经乃常道,不变之法.只有掌握了SEO的经,持经达变,你才能真正理解SEO的精髓,才可能真正学好SEO.就像修炼武侠小说中的盖世武功,一定是先修内功,再练套路. 第一,SEO

多元化是搜索引擎优化的核心思想

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎每年都在不断调整算法,而且越来越人性化,越来越智能化,所以为了让自己的网站一直能够保证前几名就会越来越困难,当然只需要本着多元化这个搜索引擎优化的核心思想的话,那么基本上就能够保证在前几名,那么如何才能够实现多元化的优化呢? 一:内容要多元化 现在百度对于内容的质量要求越来越高了,所以对于网站内容的优化不能够是简单的伪原创或者采集了,

【原创】机器学习之PageRank算法应用与C#实现(1)算法介绍

考虑到知识的复杂性,连续性,将本算法及应用分为3篇文章,请关注,将在本月逐步发表. 1.机器学习之PageRank算法应用与C#实现(1)算法介绍 2.机器学习之PageRank算法应用与C#实现(2)球队排名应用与C#代码 3.机器学习之PageRank算法应用与C#实现(3)球队实力排名应用与C#代码  Pagerank是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准.在揉合了诸如Title

谷歌发布新算法以提高搜索结果的时效性

文|CBN记者 李蓉慧 谷歌发布新算法, 以提高搜索结果的时效性. 它想改变搜索引擎的过时印象, 应对Facebook的挑战. Google+让谷歌有了能够拿得出手的社交产品,但这还不够,现在谷歌试图让人相信,对于谷歌的传统搜索业务,人们也能够期望它做出些应对新时代的改变. 美国当地时间11月3日,谷歌发布了一款名为"Freshness Algorithm"的网页搜索算法,以增强网页搜索时效性.这是谷歌对搜索算法的一次重大改变,这次改变将会影响35%的网页搜索结果. Freshness

深入理解Spark:核心思想与源码分析

大数据技术丛书 深入理解Spark:核心思想与源码分析 耿嘉安 著 图书在版编目(CIP)数据 深入理解Spark:核心思想与源码分析/耿嘉安著. -北京:机械工业出版社,2015.12 (大数据技术丛书) ISBN 978-7-111-52234-8 I. 深- II.耿- III.数据处理软件 IV. TP274 中国版本图书馆CIP数据核字(2015)第280808号 深入理解Spark:核心思想与源码分析 出版发行:机械工业出版社(北京市西城区百万庄大街22号 邮政编码:100037)

文本相似度结合PageRank算法

目标 尝试了一下把PageRank算法结合了文本相似度计算.直觉上是想把一个list里,和大家都比较靠拢的文本可能最后的PageRank值会比较大.因为如果最后计算的PageRank值大,说明有比较多的文本和他的相似度值比较高,或者有更多的文本向他靠拢.这样是不是就可以得到一些相对核心的文本,或者相对代表性的文本?如果是要在整堆文本里切分一些关键的词做token,那么每个token在每份文本里的权重就可以不一样,那么是否就可以得到比较核心的token,来给这些文本打标签?当然,分词切词的时候都是

【原创】机器学习之PageRank算法应用与C#实现(2)球队排名应用与C#代码

在上一篇文章:机器学习之PageRank算法应用与C#实现(1)算法介绍 中,对PageRank算法的原理和过程进行了详细的介绍,并通过一个很简单的例子对过程进行了讲解.从上一篇文章可以很快的了解PageRank的基础知识.相比其他一些文献的介绍,上一篇文章的介绍非常简洁明了.说明:本文的主要内容都是来自"赵国,宋建成.Google搜索引擎的数学模型及其应用,西南民族大学学报自然科学版.2010,vol(36),3"这篇学术论文.鉴于文献中本身提供了一个非常简单容易理解和入门的案例,所

《R的极客理想——高级开发篇 A》一一2.2 PageRank算法R语言实现

2.2 PageRank算法R语言实现 问题 如何用R语言实现PageRank算法? 引言 Google搜索,早已成为我每天必用的工具,我无数次惊叹它搜索结果的准确性.同时,我也在做Google的SEO,推广自己的博客.经过几个月尝试,我的博客PR到2了,外链也有几万个.总结下来,还是感叹PageRank的神奇.笔者认为PageRank是改变互联网的算法!2.2.1 PageRank算法介绍 PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度.