防采集方法

这个防采集的方法是我今天在无奈之下想出来的,要开网站一看我晕不能访问,立马跑到服务器上一看,apache点N高的内存,后来在一急之下就想出了这种办法,呵呵,到底是什么方法呢,我把我防采集的过程给各位讲一下吧.

根据我分析一般这种大量采集都是现成的cms如dede ,新云,dz等,他们己经写好了方法只要你把规则放进去就行了,例如:取得文章列表页开始与结束位置,连接url的开始与结束字符,内容页面的开始与字符,就这样几句代码,就让你的服务器要命哦,根据我上面的分析我们就来写一些没有规则的可以说如果要采集成功,难度比以前要大,

首页对分页进行了处理,如我以前是这样的

<div id=page> <a href=?page=1>1</a><a href=?page=2>2</a> </div>

你上面这样别人很容易就在设置获取分页列表时开始为<div id=page>结束时</div>这样你的分页连接被获取了,然后就是你的链接了,开始<a href= 结束>OK你的文章就会全部被采集去了.下面看看我是怎么写的吧.

我定义page css有1,20个然后用rand(0,20)生成随机也就会

<div id=pageN> <a href=?page=1></a>1<a href=?page=2>2</a> </div>这个N是0-20啊,所以读分面列表时就会碰到麻烦了.其实这样还不够,现在我们对a 标签进行干<a href=?page=1 class=随机娄></a> 一下<a href=?page=1></a>是这样,自然一般的cms 就无法读取了,

好了,其它链接也一个的办法,最后就一句话,增加采集的难度,这样你网站被采集的机会就少了.

好了最后申明一下本站原创文章转载请注明:  www.111cn.net/mon/mon.html 

时间: 2024-10-25 23:53:44

防采集方法的相关文章

网站防采集方法

    第1种方法:     防采集第一招 用Persistence为静态页面增加session功能       一般来说,只有服务器端的CGI程序(ASP.PHP.JSP)具有session会话功能,用来保存用户在网站期间(会话)的活动数据信息,而对于数量众多的静态页面(HTML)来说,只能使用客户端的cookies来保存临时活动数据,但对于cookies的操作是个很烦琐的过程,远没有对于session操作那样简便.为此,本文向读者推荐一种在DHTML中的解决方案"Persistence技术&

非常好的网站生成静态页面防采集策略与方法_网站应用

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策:  一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问     弊端:     1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数.     2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件     采集对策:只能放慢采集速度,

防采集代码[推荐!]

人工复制文章采集是没办法防止的,也有些站长用换行加隐藏字符的方法来防止直接复制,但这类方法也会严重影响搜索引擎的收录.下面我说说我自己在做站过程中,想过的一些防采集个人经验和心得吧.总结了一下,有三种实用的方法.1.文章头尾无唯一特征代码后加自己网站随机广告广告..2.文章列表加随机不同的链接标签,比如<a href="",<a class="dds" href=''3.正文头尾或列表头尾添加和文章头尾一样的重复特征代码<!--重复特征代码--&g

如何让网站防采集?

网站|采集 很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同. 相同点: a. 两者都需要直接抓取到网页源码才能有效工作, b. 两者单位时间内会多次大量抓取被访问的网站内容; c. 宏观上来讲两者IP都会变动; d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等. 不同点: 搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然

网站生成静态页面攻略 -- 防采集策略

采集|策略|攻略|静态|页面 目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问 弊端:1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数.2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件采集对策:只能放慢采集速度,或者不采建

火车头谈网站的采集与防采集

中介交易 SEO诊断 淘宝客 云主机 技术大厅 安徽互联网联盟(ahunion.org)主办的站长讲座不知不觉到了第十二期.上期的讲座获得了众多参与站长很高的赞誉也让更多的站长积极的加入到讲座群内来,目前在国内最知名的网站采集软件肯定就似乎火车头采集器(locoy.com)了,火车采集器(LocoySpider)是一个功能强大的数据采集软件.使用它,您可以很容易的从网页上抓取文字,图片,文件等资源.目前是国内使用率最高的网站采集软件,前不久刚推出了2009的最新版,深受广大站长的喜爱.由于该采集

十点防采集黄金建议_网站应用

笔者自己是写采集器的,所以对网站防采集有一些心得体会.因为是在上班时间,各种方法只是简单的提及.     很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同.     相同点:     a. 两者都需要直接抓取到网页源码才能有效工作,    b. 两者单位时间内会多次大量抓取被访问的网站内容:     c. 宏观上来讲两者IP都会变动:     d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如

网站生成静态页面攻略3:防采集策略_小偷/采集

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问     弊端:    1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数.    2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件    采集对策:只能放慢采集速度,或者不采

网站生成静态页面攻略3:防采集策略

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问 弊端:    1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数.    2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件    采集对策:只能放慢采集速度,或者不采