这个防采集的方法是我今天在无奈之下想出来的,要开网站一看我晕不能访问,立马跑到服务器上一看,apache点N高的内存,后来在一急之下就想出了这种办法,呵呵,到底是什么方法呢,我把我防采集的过程给各位讲一下吧.
根据我分析一般这种大量采集都是现成的cms如dede ,新云,dz等,他们己经写好了方法只要你把规则放进去就行了,例如:取得文章列表页开始与结束位置,连接url的开始与结束字符,内容页面的开始与字符,就这样几句代码,就让你的服务器要命哦,根据我上面的分析我们就来写一些没有规则的可以说如果要采集成功,难度比以前要大,
首页对分页进行了处理,如我以前是这样的
<div id=page> <a href=?page=1>1</a><a href=?page=2>2</a> </div>
你上面这样别人很容易就在设置获取分页列表时开始为<div id=page>结束时</div>这样你的分页连接被获取了,然后就是你的链接了,开始<a href= 结束>OK你的文章就会全部被采集去了.下面看看我是怎么写的吧.
我定义page css有1,20个然后用rand(0,20)生成随机也就会
<div id=pageN> <a href=?page=1></a>1<a href=?page=2>2</a> </div>这个N是0-20啊,所以读分面列表时就会碰到麻烦了.其实这样还不够,现在我们对a 标签进行干<a href=?page=1 class=随机娄></a> 一下<a href=?page=1></a>是这样,自然一般的cms 就无法读取了,
好了,其它链接也一个的办法,最后就一句话,增加采集的难度,这样你网站被采集的机会就少了.
好了最后申明一下本站原创文章转载请注明: www.111cn.net/mon/mon.html