网站信息采集是指非结构化的信息从其他大量的网页中提取出来保存到结构化的数据库中的过程。网站内容采集有利也有弊,过多的采集网站内容会被搜索引擎认为网站内容重复,时个垃圾站,会有被K站的可能,下面我就与大家分享下我防百度K站的网站采集经验。希望对大家有所帮助:
首先我们先来了解下网站内容采集的好处与坏处:
网站内容采集的好处
网站内容采集可以让你的网站的收录在短时间内得到大量的提升(你网站必须有高权重),能够网络大部分的流量,抓住其他竞争手的流量。
网站内容采集的坏处
每天大量的采集,百度可能会认为你的网站资料重复,是个垃圾站,要是你第一天采集了100篇文章,第二天采集了200篇,第三天就不采集了,这样就属于更新频率不均匀,百度就会开始注意你了。
现在给大家举例说明下:
2008年的时候建立了我的网站,2008年的网站现在可以算是一个老站了,收录只有首页,快照也比较旧,那时候我也是做站不久,只懂一点皮毛而已。开始第一步就是把网站搭建起来,接着就是文章内容方面了,新站所以每天发一些原创的文章和伪原创,每天30-50左右,大概这样1个月后,百度收录了1000页PR也升到2,后来看到别人那些大网站收录都是好几百万页的,而且流量又特别大,就产生了巨大的诱惑,所以我也开始采集了,刚开始采集的时候每天100-300篇,采集了有一个星期多,不见百度收录,就算有收录,后来还是掉了,我想应该是文章质量问题,然后就慢慢把采集过来的文章都修改了下,加上一些自己的话语,让这些文章的质量变高些,就这样观察了两个星期左右,果然被收录了,而且之前采集的信息全部被收录了,随着百度收录收录越多我就变得更贪心,每天采集的数量从100-300增加到300-500,时间过了一个多月百度收录果然涨到了一万多,当时真的很兴奋,一直觉得收录越高,网站就很牛,后来又采集了一段时间,当百度收录涨到5万多的时候,流量已经达到5000多了,就这样一直采集收录涨到了13万,慢慢的流量突然下降了,本来每天5000以上的ip一下降到了几十个iP,那时候真的是气疯了,才清楚的知道被百度惩罚了,之后的几天里就没采集了开始发布伪原创文章,手工发表文章,就这样过了又几天百度竟然只剩下几个IP了,这时候我才感到我网站的被K了。
经验总结
如果你要采集一定要采集和自己网站相当的文章,如果你的网站是新站,劝你不要采集,还是自己写原创文章或者伪原创。其实网站的内容相关性还是比较重要的,要是你网站的内容很强,加上你在seo方面做的很好可以表现出更好的效果,在百度搜索排名算法里,原创内容是最重要的环节。如果你整个网站内容或者是大部分内容都是采集的,影响会很大。要你继续采集,百度会认为你是一个低质量的采集站,那以后你的网站就很难被收录了。所以大家要不断坚持发表原创或高质量的伪原创,最好是采集多个网站的文章,不要只采集一个网站的文章,这样下来你的网站的内容就和采集的网站内容一样了,这样也是不好的。采集是可以的,要适当采集。自己也要写一些伪原创和原创的文章进去。不过本人建议还是不要采集,毕竟采集的不是很好。我真心的希望大家的网站越来越好,希望大家的生活更加的美好!
原文撰写:中国信息港,转载请注明出处http://www.cncnc.com.cn/,谢谢合作!