防采集代码[推荐!]

人工复制文章采集是没办法防止的,也有些站长用换行加隐藏字符的方法来防止直接复制,但这类方法也会严重影响搜索引擎的收录。
下面我说说我自己在做站过程中,想过的一些防采集个人经验和心得吧。
总结了一下,有三种实用的方法。
1、文章头尾无唯一特征代码后加自己网站随机广告广告..
2、文章列表加随机不同的链接标签,比如<a href="",<a class="dds" href=''
3、正文头尾或列表头尾添加和文章头尾一样的重复特征代码<!--重复特征代码-->
如果全加上,绝对可以有效的防采集,单独加一种就可以让采集者头疼。。
完全可以对付通用的CMS采集程序。。

这里提到的特征代码是指一般采集程序用来截取采集数据的头尾代码,例如:
<div id="content">
内容<div>内容里也有div标签</div>
</div><script>...</script>
--------------------------------
上面代码段的采集头尾特征代码就是:<div id="content">和</div><script>
,通过程序得到这两个特征代码,就可以截取并采集到内容了。

下面,我们开始说第一种方法:
文章头尾加本站随机广告信息,随机广告是不固定的,可以在自己的后台建立一个关于本站的介绍、推广信息、优秀资源等,广告条数记录越多越好。字数控制在一行内为宜。

比如你的文章内容是"欢迎访问阿里西西",那么随机广告的加入方法:
<div id="xxx">
{随机广告1}欢迎访问阿里西西{随机广告2}
</div>
注:文章正文头尾不要和随机广告有任何的特定的代码!随机广告1和随机广告2每篇文章只要随机显示一个就可以了,也就是有的文章头部显示广告,有的是尾部显示广告.这样一来,想用机器自动采集你网站内容文章的人,就会把你网站的信息一起采集过去(如果是这样,对方采集越多越好,帮你做宣传)
有些人会说,采集系统有过滤功能,是的,正则很强大,但没有人能一一去查看所有的文章把你的广告特征码给翻查出来过滤的。能过滤采集者所知道的一部分我不怀疑。但要想全部过滤,那还不如直接到你网站复制内容了。

第二种防采集方法:

---------------------------------------
<!--<div id="xxx_文章ID">-->
其它标题或内容...
<!--<div id="xxx_文章ID">--> <div id="xxx_文章ID">
随机广告1欢迎访问阿里西西随机广告2
<--</div>-->
</div>
<--</div>-->
-------------------------------------

这是第二种防采集方法。在文章正文页面插入重复特征头尾代码的注释。
当然,这个可以用正则去掉,但足于对付通用的采集系统。。

第三种防采集方法:

第三种加在文章的列表,随机链接样式或代码:
<a href="xxx.html">标题一</a><a href='#'>2009-10-9</a>
<a title="xxx" href="xxx.html">标题二</a><a href=#>2009-10-9</a>
<a href='xxx.html'>标题三</a><a title="xxx" href="#">2009-10-9</a>
<a href=xxx.html>标题四</a><a href='#'>2009-10-9</a>

-----------------------------------
原理是让采集的人无法抓到列表链接规律,无法批量进行采集.

如果三种方法全部加上,我想一定能让想采集的人头疼半天而放弃的..

如果你还问,如何防止别人复制采集呢?要做到这一点容易,把你的网站的网线拔了,自己给自己看就好了.哈哈.

如果你的文章来自原创,那像可以加上版权声明,别人随意转载时,你可以要求对方删除你有版权的文章.

上面三点只是我个人观点,在这基础上,相信你或大家会有更好的点子来干扰采集者的

作者:阿里西西
来源:www.alixixi.com

时间: 2024-10-05 08:41:35

防采集代码[推荐!]的相关文章

asp 防采集代码

Dim AppealNum,AppealCount AppealNum=10 '同一IP60秒内请求限制10次 AppealCount=Request.Cookies("AppealCount") If AppealCount="" Then response.Cookies("AppealCount")=1 AppealCount=1 response.cookies("AppealCount").expires=datea

asp 防采集代码 二

user_agent=Request.ServerVariables("HTTP_USER_AGENT") http_reffer=Request.ServerVariables("HTTP_REFERER") server_name=Request.ServerVariables("SERVER_NAME") '检查当前用户是否是蜘蛛人 function check(user_agent) allow_agent=split("Bai

一段ASP防采集的代码

采集 一段ASP防采集的代码<%        '作用:文字防复制乱码 函数        'Date:2006-3-6        '作者:blue2004        '参数str 为原文,str1作者也是你自己,reslut产生乱码的种子        Function ReadToCode(str,Str1,result)                dim name                dim i,j,k                If isnull(str) th

网站防采集方法

    第1种方法:     防采集第一招 用Persistence为静态页面增加session功能       一般来说,只有服务器端的CGI程序(ASP.PHP.JSP)具有session会话功能,用来保存用户在网站期间(会话)的活动数据信息,而对于数量众多的静态页面(HTML)来说,只能使用客户端的cookies来保存临时活动数据,但对于cookies的操作是个很烦琐的过程,远没有对于session操作那样简便.为此,本文向读者推荐一种在DHTML中的解决方案"Persistence技术&

动态程序防采集的新方法

昨天在网上看到一个防采集软件,说采集只访问当前网页,不会访问网页的图片.JS等,今天突然想到,通过动态程序和Js访问分别记录访问者的IP,然后进行IP判断,由于采集过程不会访问JS,采集的时候只会查到用动态程序记录的IP,而不会有通过JS记录的IP,从而实现网页程序的防采集. 防采集的原理非常简单,首先放一段动态语句,把访问者的IP加入到数据库的一个表里,然后在页面底部加入一个JS,JS直接访问动态页面,将访问者的IP加入到数据库的另外一个表里.再次访问的时候,从两个表里读IP数据,然后判断时间

如何让网站防采集?

网站|采集 很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同. 相同点: a. 两者都需要直接抓取到网页源码才能有效工作, b. 两者单位时间内会多次大量抓取被访问的网站内容; c. 宏观上来讲两者IP都会变动; d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等. 不同点: 搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然

网站生成静态页面攻略 -- 防采集而不防搜索引擎策略

采集|策略|攻略|静态|搜索引擎|页面 从前面的我讲的采集原理大家可以看出,绝大多数采集程序都是靠分析规则来进行采集的,如分析分页文件名规则.分析页面代码规则. 一.分页文件名规则防采集对策 大部分采集器都是靠分析分页文件名规则,进行批量.多页采集的.如果别人找不出你的分页文件的文件名规则,那么别人就无法对你的网站进行批量多页采集. 实现方法: 我认为用MD5加密分页文件名是一个比较好的方法,说到这里,有人会说,你用MD5加密分页文件名,别人根据此规则也可以模拟你的加密规则得到你的分页文件名.

A5源码:2013年1月免费建站代码推荐

A5源码 2013年1月免费建站代码推荐 A5源码首先给大家拜个晚年!恭祝大家在新的一年身体健康,万事如意,事业蒸蒸日上,家庭和和美美!!! 同时感谢大家在过去的一年里对A5源码的支持与厚爱,A5源码为您推荐2013年1月最新的免费建站代码. CMS文章: 织梦DedeCms简要介绍: 织梦CMS是集简单.健壮.灵活.开源几大特点的开源内容管理系统,是国内开源CMS的领先品牌,目前程序安装量已达七十万,超过六成的站点正在使用织梦CMS或基于织梦CMS核心开发. 2013年1月更新: plus/s

火车头谈网站的采集与防采集

中介交易 SEO诊断 淘宝客 云主机 技术大厅 安徽互联网联盟(ahunion.org)主办的站长讲座不知不觉到了第十二期.上期的讲座获得了众多参与站长很高的赞誉也让更多的站长积极的加入到讲座群内来,目前在国内最知名的网站采集软件肯定就似乎火车头采集器(locoy.com)了,火车采集器(LocoySpider)是一个功能强大的数据采集软件.使用它,您可以很容易的从网页上抓取文字,图片,文件等资源.目前是国内使用率最高的网站采集软件,前不久刚推出了2009的最新版,深受广大站长的喜爱.由于该采集