搜索引擎网页去重算法解析

  seo优化培训:搜索引擎网页去重算法解析

  以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下;

  相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。

  即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!

  搜索爬虫抓取会产生网页重复的类型:

  1.多个URL地址指向同一网页以及镜像站点

  如:www.sina.com和www.sina.com.cn

  指向同一个站点。

  2.网页内容重复或近似重复

  如抄袭、转摘的内容,垃圾信息等

  网页内容近似重复检测的两种应用场合:

  一:在用户搜索阶段

  目标是根据与用户给定的查询词找到已有索引列表中近似重复的文档,并排序输出。

  二:爬虫抓取发现阶段

  对一个新的网页,SEO爬虫程序通过网页去重算法,最终决定是否对其索引。

  搜索引擎网页去重算法分析好文分享第1张

  搜索引擎架构

  近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:

  一:两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。

  二:两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。

  三:两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。

  四:两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面。

  重复网页对搜索引擎的不利影响:

  正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索会消耗大量的服务器资源。

  重复网页对搜索引擎的好处:

  如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。

  重复文档的处理方式:

  1.删除

  2.将重复文档分组

  近似重复网页举例:

  搜索引擎网页去重算法分析好文分享第2张

  搜索引擎网页去重算法分析好文分享第3张

  近似重复网页举例

  搜索引擎近似重复检测流程:

  搜索引擎网页去重算法分析好文分享第4张

  搜索引擎近似重复检测流程

  通用网页去重算法框架:

  搜索引擎网页去重算法分析好文分享第5张

  通用网页去重框架

  SimHash文档指纹计算方法

  搜索引擎网页去重算法分析好文分享第6张

  SimHash文档指纹计算方法

  说明:

  1)从文档中提取具有权值的特征集合来表示文档。如:假设特征都是由词组成的,词的权值由词频TF来确定。

  2)对每一个词,通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。每个词都对应各自不同的二进制值。

  3)在N维(上图为8维)的向量V中,分别对每维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。

  4)当所有的词都按照上述处理完毕后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。

  Jacccard相似性计算方法:

  搜索引擎网页去重算法分析好文分享第7张

  Jacccard相似性计算方法

  如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2.Jaccard计算两个集合相同的元素占总元素的比例。

  如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7

  在实际应用中,集合A和集合B的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。

  对给定的文档A,假设经过特征抽取–哈希指纹运算后的二进制数值是:10000010

  对给定的文档B,假设经过特征抽取—哈希指纹运算后的二进制数值是:00100001

  经过比较,文档A和B的第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4.两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。

  不同搜索引擎可能会以不同的海明距离值来判断两个网页内容是否近似重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理.

时间: 2024-10-26 03:06:38

搜索引擎网页去重算法解析的相关文章

根据搜索引擎网页去重原理来做seo

根据搜索引擎网页去重原理来做seo 01.网页为何要去重? 对于搜索引擎来说,希望呈现给用户的是新颖且吸引人的内容,是高质量的文章,而不是大量的"换汤不换药"的套话;我们在做SEO优化,要进行内容编辑时,难免会参考其他同类的文章,而这篇文章或许被多人采集过,这就导致了网络上的相关信息大量的重复. 如果一个网站存在大量的恶劣采集内容,不仅会影响用户体验,还会造成搜索引擎直接屏蔽该网站.之后网站上的内容,蜘蛛再难抓取了. 搜索引擎优化培训 02.搜索引擎工作原理 搜索引擎是指根据一定的策略

搜索引擎页面去重算法分析之I-Match算法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 互联网中存在了大量的重复页面,据统计表明近似重复页面的数量占据网站总数量的29%,而完全重复页面占据了22%.这些重复的页面对搜索引擎来说占据了很多的资源,因此搜索引擎对页面的去重也是搜索引擎中很重要的一个算法.因此今天就跟大家分析下搜索引擎页面去重算法-I-Match算法. 对于I-Match算法来说主要是根据大规模的文本集合进行统计,对于

什么是网页去重原理?

注明:来之痞子瑞<SEO深度解析>书本知识,非常感谢作者给我们写了这么好SEO知识. [导读]在互联网如此发达的今天,同一个资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息.然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容.抓取这些重复的网页,在一定程度上就是对搜索引擎自身资源的浪费,因此去除重复内容的网站也成为了搜索引擎所面临的一大问题. 在一般的搜索引擎架构中,网页去重一般在Spi

PageRank 算法解析

PageRank 算法解析    Jun 26, 2005 来源:未详         什么是PageRank? PageRank是Google衡量网页重要性的工具,测量值范围为从1至10分别表示某网页的重要性.在Google工具栏可以随时获得某网页的PageRank值.在这里我们将PageRank的一些特殊之处,从而对其能够获得较为深入的了解,使广大用户能够更好的使用和了解Googel. 网站 排名的历史渊源 上世纪90年代早期网络刚刚兴起之时,每天都有大量的含有特别行业内容的站点发布于网上.

网页切片算法的若干问题

算法|网页|问题 这是我研究网页切片算法的一个汇总想法. 之前我写过:一种面向搜索引擎的网页分块.切片的原理,实现和演示,随着工作的深入,逐渐碰到以下问题: 网页切片的粒度问题: 网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等. 网页切片的网页对象: 互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的

搜索引擎原创识别算法的技术细则

前段时间参加武汉的一个seo圈子的小聚会,闲聊嗨皮之余,连同几个百度的工程师一起,具体的分析了下有关百度原创识别算法,在技术方面的一些细节,觉得蛮有意思的,就写出来大家一起沟通下,求拍矮个芝麻砖. 搜索引擎为什么如此重视原创? 早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱. 首先,由于后期采集技术的兴起,大量的转载内容充斥网络.转载,必然会对原创产生一定的损伤,比如去掉图

精通Python网络爬虫:核心技术、框架与项目实战.3.4 网页分析算法

3.4 网页分析算法 在搜索引擎中,爬虫爬取了对应的网页之后,会将网页存储到服务器的原始数据库中,之后,搜索引擎会对这些网页进行分析并确定各网页的重要性,即会影响用户检索的排名结果. 所以在此,我们需要对搜索引擎的网页分析算法进行简单了解. 搜索引擎的网页分析算法主要分为3类:基于用户行为的网页分析算法.基于网络拓扑的网页分析算法.基于网页内容的网页分析算法.接下来我们分别对这些算法进行讲解. 1.?基于用户行为的网页分析算法 基于用户行为的网页分析算法是比较好理解的.这种算法中,会依据用户对这

浅述搜索引擎的分词算法 了解全文检索技术

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 21世纪互联网的快速发展让人们生活越来越便利,当日益剧增的海量信息让我们眼花缭乱时,搜索引擎的出现可以让我们快速找到自己想要的答案.因此多了解搜索引擎的分词算法,可以让网站在搜索引擎上获得更好的展现机会.在讲解中文分词技术之前,先来了解下全文检索技术. 全文检索技术 全文检索是指索引程序扫描文章中的每个词并建立对应索引,记录该词出现的位置和次

谈《百度搜索引擎网页质量白皮书》

        今年上半年,百度发布了<百度搜索引擎网页质量白皮书>,官方给出的发布理由是"此次推出<网页质量白皮书>,目的是开放百度在网页质量方面的判断标准,给站长提供参考,希望有更多.更优质的内容产生,满足搜索引擎用户的需求,同时为站长带来流量,实现共赢."         几乎可以肯定,用户在浏览网页时,使用最多的网站,绝大多数是搜索引擎,如百度.搜狗.360以及现在几乎没法用的谷歌.用户将自己的需求传递给搜索引擎,搜索引擎帮助用户在整个网页库中搜寻用户希