文章被长期他人采集的后果及避免方法

  定期更新站内的文章几乎是每一个网站都会做的事情,当然不是每网站都注重原创,也不是每个网站都愿意花这个时间去做原创的文章,不少人就在用采集的方式在更新自己的网站文章。且不说大量采集他人文章的网站会怎么样,这里根据笔者自己网站的实际情况,说一说长期处于被他人采集文章的网站会有什么样的后果,以及要避免被他人采集的方法。BaiduSpider喜欢原创的东西,但是百度蜘蛛对于原创源址的判断目前还无法做到精准的地步,它并不能完全自主的判断某一篇文章它的始发点是哪里,当我们更新一篇文章,并且很快的被他人采集的时候,蜘蛛可能同一时间接触了到很多一摸一样的文章,那么它就会很迷茫,并不清楚到底哪个是原创的,哪些是复制的。

  因此,当我们的网站长期处于被采集的状态的时候,我们网站上更新的文章大部分都在互联网上存在一样的内容,而假如网站权重又不够高,那么蜘蛛就很可能将你的网站列为采集站,它更相信你网站的文章是采集自互联网的,而不是互联网当中其他的站是采集你的文章。

  当蜘蛛这样的看待你的网站的时候,你网站可能就会碰到这么几种情况:

  先文章页停止收录,然后整个网站不收录

  这点是一定会发生的,因为被百度误判为采集站,所以你的文章页一定会被百度列为考察期,在这个期间,文章页是一定会停止收录的。当然这个停止收录不会只是影响你的文章页,它也会让那个百度重新审核你整个网站,所以其他的页面也会渐渐的开始不收录。笔者的网站曾有半个月没有收录过一个页面,原因就是因为这个导致的。

  网站收录开始减少,快照停滞

  正如前面所说,百度会重新对你的网站进行考量,这个时候,一定会发现你网站存在着一些页面和互联网当中存在类似,百度会毫不考虑的减少你这些页面的收录,所以很多人发现网站停止收录之后,慢慢的引起了网站整个收录的减少,就是这个原因。页面不怎么收录,百度对网站的信任度下降,最终,快照也会停滞一段时间。

  排名并未有所波动,流量正常

  当出现收录减少,快照停滞的时候,我们最关心的问题就是排名的问题,担心排名会有所影响。这点到是可以放心,因为文章被采集,导致自己站受到百度的考核,这个只是影响了百度对网站的信任度,并不会导致网站权重的下降,所以网站的关键词排名并不会受到影响。

  改善之后,网站收录依然存在异常

  假设我们发现自己网站被采集之后,我们对网站进行了一些改善,成功的避免了网站被采集,那么你的网站还会有一个适应期,整个适应期表现出来的症状为:网站渐渐的开始收录文章页,但是收录的并不是即时更新的文章,有可能是前天的或者大前天更新的。这样的症状大概会存在1周的时间,之后收录会慢慢的趋于正常,快照也会慢慢的恢复。

  这一系列的现象都是当网站处于长期被他人采集的情况下会出现的,所以当你自己的网站存在这样的一些现象的时候,你首先要找的原因就是自己每天更新的文章是不是正在被别人采集。如果你的网站确实是处于这样的情况,肯定是要想办法解决的,当然别人要采集你的文章,你不可能强制性的说不让别人去采集,所以我们能做的就是在自己本身上做一些改动。

  1、提升页面权重

  提升页面的权重是可以从根本上解决这个问题的,我们都知道,像A5、Chinaz这样的网站每天都会被别人采集,但是这完全没有影响到A5、Chinaz网站的收录,这就是因为他们的权重足够的高,当别人网站出现和他们一样的文章的时候,蜘蛛会默认的把他们的文章作为原创源。所以一定要提升文章页面的权重,多做一些这个页面的外链。

  2、Rss合理利用

  开发一个这样的功能也是有必要的,在网站文章有更新的时候,第一时间就让搜索引擎知道,主动出击,这样会很有助于收录的。而且Rss也能有效增加网站的流量,可以说是一举两得。

  3、做一些细节,限制机器的采集

  被人工采集还没什么,要是没人用工具定时、大量的采集你网站的文章,这确实让人很头疼,所以我们应该在页面的细节上做一些处理,至少能够防止机器的采集。比如页面不要设计的太传统、大众化;Url的写法要多变一些,不要成为默认叠加等设置。

  4、被采集的时候,更新的文章多与自己网站有关

  别人采集我们的文章,是因为他们也需要我们更新的内容,所以如果我们更新的都是与自己网站有关的信息,经常会穿插我们网站的名称,别人在采集的时候就会觉得我们的文章对他们并没有太多的意义,这也是很不错的避免采集的方式。

  文章经常被采集,这肯定是会对我们产生影响的,所以我们要尽量的去避免,让自己网站的内容在互联网当中成为唯一性,提升百度对我们网站的信任度,让我们的优化工作更加顺畅。

  本文当中提及的现象都是笔者网站碰到的真实情况。文章由http://www.aidai.com/爱戴网整理给出,转载请附明来源链接。

时间: 2024-11-03 05:51:07

文章被长期他人采集的后果及避免方法的相关文章

php采集中国代理服务器网的方法

        本文实例讲述了php采集中国代理服务器网的方法.分享给大家供大家参考.具体如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 7

php获取文章上一页与下一页的方法_php技巧

本文实例讲述了php获取文章上一页与下一页的方法.分享给大家供大家参考.具体方法如下: 今天发现一个站的上一页与下一页出现问题,上一页没有问题但是在下一页是直接到了本频道最新发布的文章了,按原理应该是文章本身ID的前与后的ID才是上下页吧,下面我来与大家详细讲述一下. 先看个例子:1,2,3,4,5. 假如上面5个是ID了,我要对上一页排序直接使用order by id desc,如我当前ID为3那么出来的是2才对,对下一页我们要用order by id asc得出的排序应该是,4,好了原理就这

如何采集静态文章系统_小偷/采集

目前网站基本上都生成静态的了,对于那些技术不是很高深的小偷来说,去偷一个文件名是以时间加随机数来命名的文章系统,有点困难,而目前的大多数静态的系统都是以这样的方式命名的,这个不像有asp?id=1 to asp?id=100这样好这个命名是没规律的,那么,这种文章系统怎么样采呢,以下就以自已的站www.asp315.com这例来写一篇关于采集静态文章系统的教程吧!  首先,我们打开www.asp315.com你会发现教程很多,我们随便点一个进去吧,就点JSP教程吧,里面还分了子类,这个不管我们就

文章可读性不高的原因分析及改进方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 自从高中毕业之后就很少有写文章了,后来也没有接触过语文方面的学习,在工作中发现写作总结概括能力是多么的重要,提高办法之一就是多实践.10月13日,笔者花了一天的时间在A5教程频道投了篇稿子,这算是第一次在网上投稿吧,结果是被无情的退回来了,原因是:文章可读性不高.尽管开始可能会有点不如人意,但这打击性的事实能让人更深刻的认识自己水平.根据前辈

php curl函数采集网页出现乱码问题解决方法

gzip压缩传输导致乱码 今天在采集京东的时候发现返回的数据是乱码,网上说可能和压缩有关,看了一下京东的头信息的确进行gzip加密,好吧,那就解压吧  代码如下 复制代码 $return = gzdecode($return); //将return的字符进行解码 另一种解决办法 curl_setopt($ch, CURLOPT_ENCODING, 'gzip'); 页面编码问题  代码如下 复制代码 mb_convert_encoding($str, 'utf-8', 'GBK,UTF-8,AS

asp.net采集网页图片的具体方法_实用技巧

在网上找了下大多都是通过字符串操作找出img标签,这种方式操作起来比较麻烦,而且代码看起来比较累.这里我用的方法是通过WebBrowser来加载一个页面,然后HTMLDocument类来操作省去了字符串操作的步骤,直接调用GetElementsByTagName把所有图片地址返回到一个HtmlElementCollection对象里.代码如下: 复制代码 代码如下: using System;using System.Collections.Generic;using System.Linq;u

WordPress文章和单页中运行PHP代码的方法

众所周知,WordPress是一个非常流行的CMS,它的易用性.用户界面和功能强大,都足矣让我们搭建各种类型的网站,这是面向开发者和程序员的特点,但是作为用户,可以感觉没有什么区别了. 作为一个PHP开发者和博主,有次我想在一篇文章中执行一行PHP代码.默认情况下,你不能在WordPress文章和网页执行PHP(虽然你可以这样做的HTML.CSS和JavaScript). 由于WordPress不解析PHP的文章和单页,我通常会创建一个PHP文件,然后链接到它在我的文章. 在这两部分组成的系列中

WordPress 实现文章或面页内容太长分页的方法

WordPress系统是内置分页功能的,要实现它极其简单,只需要在你想要分页的地方加入下面的代码即可(注意,是在文本编辑模式下): <!?nextpage?> 但还有一个问题.要让这个代码真正能够实现其分页功能,还需要你所使用的Wordpress主题支持,Wordpress的默认主题是支持的,如果你的主题不支持,那解决方法也很简单,找到你主题文件内的 single.php 里的下面这行代码: <?php the_content(); ?> 在这段代码下面加上: <?php w

长尾SERP中非文章页面而是主页的现象原因及解决方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 当我们谈到搜索引擎优化的关键词时,我想没有任何一位站长会忽视长尾关键词的威力,优势长尾关键词的流量甚至可以带来比关键词更高的流量.当我们在优化长尾关键词的时候,我们可能有时会发现,在SERP中,有的长尾关键词搜索的结果并不是我们想要的信息内容页面,相反的是一些站点的主页.对于优化人员我们要善于分析.遇到这个问题我们必须坐下来分析其的起因.影响