数据挖掘十大经典算法——PageRank

数据挖掘十大经典算法(6) PageRank
PageRank，网页排名，又称网页级别、Google左侧排名或佩奇排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以Google公司创办人拉里•佩奇（Larry Page）之姓来命名。Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里•佩奇和谢尔盖•布林于1998年在斯坦福大学发明了这项技术。

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票，Google根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票目标的等级来决定新的等级。简单的说，一个高等级的页面可以使其他低等级页面的等级提升。
PageRank让链接来"投票"
一个页面的“得票数”由所有链向它的页面的重要性来决定，到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面（“链入页面”）的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级，相反如果一个页面没有任何链入页面，那么它没有等级。
2005年初，Google为网页链接推出一项新属性nofollow，使得网站管理员和网志作者可以做出一些Google不计票的链接，也就是说这些链接不算作"投票"。nofollow的设置可以抵制垃圾评论。
Google工具条上的PageRank指标从0到10。它似乎是一个对数标度算法，细节未知。PageRank是Google的商标，其技术亦已经申请专利。
PageRank算法中的点击算法是由Jon Kleinberg提出的。
PageRank算法
1.PageRank
基本思想：如果网页T存在一个指向网页A的连接，则表明T的所有者认为A比较重要，从而把T的一部分重要性得分赋予A。这个重要性得分值为：PR（T）/C(T)
其中PR（T）为T的PageRank值，C(T)为T的出链数，则A的PageRank值为一系列类似于T的页面重要性得分值的累加。
优点：是一个与查询无关的静态算法，所有网页的PageRank值通过离线计算获得；有效减少在线查询时的计算量，极大降低了查询响应时间。
不足：人们的查询具有主题特征，PageRank忽略了主题相关性，导致结果的相关性和主题性降低；另外，PageRank有很严重的对新网页的歧视。
2.Topic-Sensitive PageRank（主题敏感的PageRank）
基本思想：针对PageRank对主题的忽略而提出。核心思想：通过离线计算出一个 PageRank向量集合，该集合中的每一个向量与某一主题相关，即计算某个页面关于不同主题的得分。
主要分为两个阶段：主题相关的PageRank向量集合的计算和在线查询时主题的确定。
优点：根据用户的查询请求和相关上下文判断用户查询相关的主题（用户的兴趣）返回查询结果准确性高。
不足：没有利用主题的相关性来提高链接得分的准确性。
3.Hilltop
基本思想：与PageRank的不同之处：仅考虑专家页面的链接。主要包括两个步骤：专家页面搜索和目标页面排序。
优点：相关性强，结果准确。
不足：专家页面的搜索和确定对算法起关键作用，专家页面的质量决定了算法的准确性，而专家页面的质量和公平性难以保证；忽略了大量非专家页面的影响，不能反应整个Internet的民意；当没有足够的专家页面存在时，返回空，所以Hilltop适合对于查询排序进行求精。
那么影响google PageRank的因素有哪些呢?
1 与pr高的网站做链接:
2 内容质量高的网站链接
3加入搜索引擎分类目录
4 加入免费开源目录
5 你的链接出现在流量大、知名度高、频繁更新的重要网站上
6 google对DPF格式的文件比较看重。
7 安装Google工具条
8 域名和tilte标题出现关键词与meta标签等
9 反向连接数量和反向连接的等级
10 Google抓取您网站的页面数量
11导出链接数量

时间： 2024-11-25 23:04:43

数据挖掘十大经典算法——PageRank

数据挖掘十大经典算法——PageRank的相关文章

数据挖掘十大经典算法（详解）

数据挖掘十大经典算法——CART

数据挖掘十大经典算法——kNN

数据挖掘十大经典算法——Apriori

数据挖掘十大经典算法——k-means

数据挖掘十大经典算法——AdaBoost

数据挖掘十大经典算法——Naive Baye

数据挖掘十大经典算法

数据挖掘十大经典算法——C4.5