什么是网页去重原理?

  注明:来之痞子瑞《SEO深度解析》书本知识,非常感谢作者给我们写了这么好SEO知识。

  【导读】在互联网如此发达的今天,同一个资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的网页,在一定程度上就是对搜索引擎自身资源的浪费,因此去除重复内容的网站也成为了搜索引擎所面临的一大问题。

  在一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在了,“去重”步骤在整个搜索引擎架构中实施得越早,越可以节约后续处理系统的资源使用。搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。

  去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前),搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。

  实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割的方式提取关键词,并进行指纹计算,连切割就是以单个字向后移动的方式进行切割就是单个字向后移动的方式进行切词,比如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打”“始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。

  因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做的鬼都读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引标准,这样使得部分作弊者有机可乘,利用网站的高权重,大量采集其他站点的内容获取搜索流量。不过自2012年6月份以来,百度搜索多次升级算法,对采集重复信息、垃圾页面进行了多次重复级的打击。所以SEO在面对网站内容时,不应该再以伪原创的角度去建设,而需要以对用户有用的角度去建设,虽然后者的内容不一定全部是原创,一般如果网站权重没有大问题,都会得到健康的发展。关于原创问题,本书后续会在第12章进行详细讨论。

  另外,不仅仅是搜索引擎需要“网页去重”,自己做网站也需要对站内页面进行去重。比如分类信息、B2B平台等UGC类的网站,如果不加以限制,用户所发布的信息必然会有大量的重复,这样不仅在SEO方面表现不好,站内用户体验也会降低很多。有如SEO人员在设计流量产品常见的一般为以“聚合”为基础的索引页、专题页或目录页,“聚合”就必须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。

  “去重”算法的大概原理一般就是如上所述,有兴趣的朋友可以了解一下I-Match、Shingle、SimHash及余弦去重具体算法。搜索引擎在做“网页去重”工作之前首先要分析网页,内容周围的“噪声”对去重结果多少会有影响,做这部分工作时只对内容部分操作就可以了,相对来说会简单很多,并且可以很有效地辅助产出高质量的“SEO产品”。作为SEO人员只要了解实现原理就可以了,具体在产品中的应用,需要技术人员来实现。此外还涉及效率、资源需求等问题,并且根据实际情况“去重”工作也可以在多个环节进行(比如对核心词的分词环节),SEO人员只要稍微了解一些原理,能够为技术人员建议几个方向就很不错了(技术人员并不是万能的,也有不熟悉、不擅长的领域,在特定时刻也需要别人提供思路)。如果SEO人员能在这些方面和技术人员进行深入的交流,技术人员也会对SEO另眼相看,至少不会再认为“SEO人员就只会修改标题、改链接、改文字之类‘无聊’的需求”了。

  总结:在次感谢痞子瑞的怎么好的书本,妮子在SEO思维中,找到新的知识,去重,指纹原理。希望兄弟姐妹们可以去看看这本书,今天给大家分享一部分吧!往后的日子,看到好的知识点,会继续和大家分享了。

  可参考已经进行过去重处理网站:http://www.91suichediao.com/

时间: 2024-08-03 19:47:31

什么是网页去重原理?的相关文章

根据搜索引擎网页去重原理来做seo

根据搜索引擎网页去重原理来做seo 01.网页为何要去重? 对于搜索引擎来说,希望呈现给用户的是新颖且吸引人的内容,是高质量的文章,而不是大量的"换汤不换药"的套话;我们在做SEO优化,要进行内容编辑时,难免会参考其他同类的文章,而这篇文章或许被多人采集过,这就导致了网络上的相关信息大量的重复. 如果一个网站存在大量的恶劣采集内容,不仅会影响用户体验,还会造成搜索引擎直接屏蔽该网站.之后网站上的内容,蜘蛛再难抓取了. 搜索引擎优化培训 02.搜索引擎工作原理 搜索引擎是指根据一定的策略

搜索引擎网页去重算法解析

seo优化培训:搜索引擎网页去重算法解析 以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下: 相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的. 即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的! 搜索爬虫抓取会产生网页重复的类型: 1.多个URL地址指向同一网页以及镜像站点 如:www.sina.c

Java 网络爬虫获取网页源代码原理及实现

1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件. 2.那么程序获取网页的原理到底是怎么回事呢?看下面的图:客服端首先向服务器端发出Http请求,之后服务器端返回相应的结果或者请求超时客户端自己报错. 服务器端发出的Http请求,实际上说是对服务器的文件的请求.下面的表格是一些常见的HTTP请求对应的文

设置网页快捷键原理

网页 在很多网页中,可以使用快捷来完成一定的动作,比如discuz论坛的"完成后可按 Ctrl+Enter 发布"功能! 这样的功能是用JavaScript中的event属性的KeyCode方法完成,利用onKeyDown事件进行驱动. 在JavaScript中,可以通过keyCode属性来得到用户所按键的ASSCII码值.具体对应关系可以查ASSCII码表. 例子: CODE:  [Copy to clipboard] --------------------------------

从搜索引擎去重原理看伪原创

大家都知道SEO的核心就是"内容为王,外链为皇"这个八字,而百度.谷歌等搜索引擎收录看重的也是以原创为主,可能有些朋友的网站内容不可能全是原创,所以.就想着搞一些伪原创,以此增加百度蜘蛛对网站内容的关注. "内容为王"那肯定要花很多时间在内容上啦,但是咱们站长不可能一天到晚就爬在内容上啦,每天还要增加外链推广等等.咱们建网站不是弄个个人博客,不可能每天大把的时间花在内容上,我们不可能每天自己创作出太多的原创文章,也不能全是采集别人的内容,于是伪原创就成了首选,有的朋

Google工程师解释Googlebot抓取网页的原理

 前几天我们adsenseaece_39018.php" target=_blank>报道了Google的Matt Cutts确认了AdSense的Mediabot的确是会帮助Googlebot抓取网页的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方.作为Matt Cutts的blog的一名忠实读者,我觉得完全没必要花费篇幅再去特别说明Matt Cutts的权威性.我想说的是,Matt Cutts在是Google品质管理部门的一名高级软件工程师,外界所知的是

网页色彩设计原理

    色彩的运用在网页中的作用真是太重要了,有些网页看上去十分典雅.有品位,令人赏心悦目,但是页面结构却很简单.图象也不复杂,这主要是色彩运用得当,因此我特地将本来属于图象制作内的色彩作为一个独立拦目来介绍.   1.色彩基本概念 自然界中的颜色可以分为非彩色和彩色两大类.非彩色指黑色.白色和各种深浅不一的灰色,而其他所有颜色均属于彩色.任何一种彩色具有三个属性:   (1)色相(Hue): 也叫色泽,是颜色的基本特征,反映颜色的基本面貌.   (2)饱和度(Saturation): 也叫纯度

网页工作原理

    Internet正以空前的速度深入千家万户,不少公司或个人在网络上建立起主页和站点.公司通过网站发布产品信息.提供服务.寻求商业契机:而个人可以通过网页展示自己的才华和爱好并与他人交流.其中不知大家有没有考虑这样一个问题,就是设计和创建好的网页是如何显示在浏览器上的?笔者以几种不同网址输入格式为例,说说网页是如何具体工作的.     一.标准的网址:域名+目录+文件名称     这是最标准的网址书写格式,例如输入:/zxxw/001.htm,其中www. 为计算机域名,zxxw为该计算机

网页设计原理:精于心,简于型

当我听到这么六个字:"精于心,简于型"的时候,似乎能很直接的体会到其中的含义."精于心,简于型"是从英文 Sense and Simplicity 翻译过来的,来源于荷兰皇家飞利浦电子公司的品牌承诺[1]. 在我们做互联网产品开发和设计的时候,大多数人都认为应该把用户放在一个重要的位置.但我们往往会讨论该如何做到以用户为中心. 当我听到这么六个字:"精于心,简于型"的时候,似乎能很直接的体会到其中的含义."精于心,简于型"是从