防采集方法

这个防采集的方法是我今天在无奈之下想出来的,要开网站一看我晕不能访问,立马跑到服务器上一看,apache点N高的内存,后来在一急之下就想出了这种办法,呵呵,到底是什么方法呢,我把我防采集的过程给各位讲一下吧.

根据我分析一般这种大量采集都是现成的cms如dede ,新云,dz等,他们己经写好了方法只要你把规则放进去就行了,例如:取得文章列表页开始与结束位置,连接url的开始与结束字符,内容页面的开始与字符,就这样几句代码,就让你的服务器要命哦,根据我上面的分析我们就来写一些没有规则的可以说如果要采集成功,难度比以前要大,

首页对分页进行了处理,如我以前是这样的

<div id=page> <a href=?page=1>1</a><a href=?page=2>2</a> </div>

你上面这样别人很容易就在设置获取分页列表时开始为<div id=page>结束时</div>这样你的分页连接被获取了,然后就是你的链接了,开始<a href= 结束>OK你的文章就会全部被采集去了.下面看看我是怎么写的吧.

我定义page css有1,20个然后用rand(0,20)生成随机也就会

<div id=pageN> <a href=?page=1></a>1<a href=?page=2>2</a> </div>这个N是0-20啊,所以读分面列表时就会碰到麻烦了.其实这样还不够,现在我们对a 标签进行干<a href=?page=1 class=随机娄></a> 一下<a href=?page=1></a>是这样,自然一般的cms 就无法读取了,

好了,其它链接也一个的办法,最后就一句话,增加采集的难度,这样你网站被采集的机会就少了.

好了最后申明一下本站原创文章转载请注明: www.111cn.net/mon/mon.html

时间： 2024-10-25 23:53:44

防采集方法的相关文章

网站防采集方法

第1种方法: 防采集第一招用Persistence为静态页面增加session功能一般来说,只有服务器端的CGI程序(ASP.PHP.JSP)具有session会话功能,用来保存用户在网站期间(会话)的活动数据信息,而对于数量众多的静态页面(HTML)来说,只能使用客户端的cookies来保存临时活动数据,但对于cookies的操作是个很烦琐的过程,远没有对于session操作那样简便.为此,本文向读者推荐一种在DHTML中的解决方案"Persistence技术&

非常好的网站生成静态页面防采集策略与方法_网站应用

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问弊端: 1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数. 2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件采集对策:只能放慢采集速度,

防采集代码[推荐！]

人工复制文章采集是没办法防止的,也有些站长用换行加隐藏字符的方法来防止直接复制,但这类方法也会严重影响搜索引擎的收录.下面我说说我自己在做站过程中,想过的一些防采集个人经验和心得吧.总结了一下,有三种实用的方法.1.文章头尾无唯一特征代码后加自己网站随机广告广告..2.文章列表加随机不同的链接标签,比如<a href="",<a class="dds" href=''3.正文头尾或列表头尾添加和文章头尾一样的重复特征代码<!--重复特征代码--&g

如何让网站防采集?

网站|采集很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同. 相同点: a. 两者都需要直接抓取到网页源码才能有效工作, b. 两者单位时间内会多次大量抓取被访问的网站内容; c. 宏观上来讲两者IP都会变动; d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等. 不同点: 搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然

网站生成静态页面攻略 -- 防采集策略

采集|策略|攻略|静态|页面目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问弊端:1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数.2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件采集对策:只能放慢采集速度,或者不采建

火车头谈网站的采集与防采集

中介交易 SEO诊断淘宝客云主机技术大厅安徽互联网联盟(ahunion.org)主办的站长讲座不知不觉到了第十二期.上期的讲座获得了众多参与站长很高的赞誉也让更多的站长积极的加入到讲座群内来,目前在国内最知名的网站采集软件肯定就似乎火车头采集器(locoy.com)了,火车采集器(LocoySpider)是一个功能强大的数据采集软件.使用它,您可以很容易的从网页上抓取文字,图片,文件等资源.目前是国内使用率最高的网站采集软件,前不久刚推出了2009的最新版,深受广大站长的喜爱.由于该采集

十点防采集黄金建议_网站应用

笔者自己是写采集器的,所以对网站防采集有一些心得体会.因为是在上班时间,各种方法只是简单的提及. 很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同. 相同点: a. 两者都需要直接抓取到网页源码才能有效工作, b. 两者单位时间内会多次大量抓取被访问的网站内容: c. 宏观上来讲两者IP都会变动: d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如

网站生成静态页面攻略3:防采集策略_小偷/采集

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问弊端: 1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数. 2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件采集对策:只能放慢采集速度,或者不采

网站生成静态页面攻略3:防采集策略

目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问弊端: 1.此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数. 2.此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程.此方法也会拒绝搜索引擎蜘蛛收录站内文件采集对策:只能放慢采集速度,或者不采

猜你喜欢

Photoshop字体特效--龟裂字

在本例中,我们将制作一个凸出底纹的裂纹字体效果,所运用到的主要命令有:Graquelure;Gaussian Blur;lighting Effects;DropShadow. 1 首先创建一个新 ...

2007政府网站建设体现八大趋势

网站建设近日,中国电子信息产业发展研究院及中国信息化绩效评估中心发布了"第五届(2006)中国政府网站绩效评估结果".无独有偶,仅在一个月前,北京大学网络经济研究中心和北京大学光 ...

网站运营策略（1）：企业需要什么样的网站？

网站建设对企业的网站运营会有什么样的影响?对企业的网络营销又有什么影响呢? 网站建设对网络营销的影响主要表现在两个方面: 1,对用户获取信息及对网站的可信度产生影响 2,对网络营销方法造成影响好,问 ...

C#读取网站的数据

数据以下是引用片段:Form1.cs using System; using System.Drawing; using System.Collections; using System.Compo ...

ASP.NET 2.0数据教程之六十一：使用SQL Cache Dependencies

返回"ASP.NET 2.0数据教程目录" 导言: 在58和59章探讨的缓存技术使用的是基于时间的缓存周期,当过了某段时间后便将缓存数据从内存清除.当设置缓存时间为x秒时,数据在 ...

彩影怎么给照片去斑

现在,不少人在拍完照片后,都会自己修图.那么,拍照的照片了一看到斑点怎么办?今天,小编就来跟大家分享彩影这款软件.彩影是一款非常专业的图片处理软件.今天小编就给大家讲讲彩影给照片去斑方法,让你可以 ...

靠谱助手模拟器设置

点击"靠谱助手"中的"模拟器设置",这里可以实现一些模拟器本身无法做到的功能,但必须从"靠谱助手"运行模拟器才可以将设置生效. 分辨率与内存 ...

Photoshop在写入文字中怎样选取文字的一部分

把文字层转换成图层,然后在层面版上按住CTRL,用鼠标点击转换成图层的文字层就能选中全部文字,然后按住ALT键,就会出现+_的符号,然后选中不需要的文字,那么留下的就是需要的文字. 分类: PS入 ...

Mac通讯录如何导出联系人

Mac通讯录是一款非常简单的Mac自带APP应用,Mac通讯录导入,相信几乎每个用苹果设备的朋友都会用,那么如何导出Mac通讯录里的联系人呢?无论你是想与某人共享一个联系人名片,还是想备份你 Ma ...

RHCE 学习笔记（23) - 磁盘格式化和分区

原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://beanxyz.blog.51cto.com/5570417/1603113 这一 ...

一位年轻女程序员的困惑

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客站长团购云主机技术大厅我毕业一年了,学的是信息技 ...

中国庞大的混合云市场已经开始涌现

作为公有云的领头羊,SaaS率先打开了广阔的公有云市场.根据Forrester的预测,就算是不远的未来,SaaS依然会占公有云90%的市场份额.但SaaS落地中国就天然水土不服,不用说全球SaaS老大 ...

见证电子商务

在<2010年度中国电子商务市场数据监测报告>中,我们可以看到2010年中国电子商务市场交易额高达4.5万亿,同比增长22%.其中,B2B电子商务交易额达到3.8万亿,网上零售市场交易规模 ...

servlet--页面显示空白

问题描述求助求助...在做一个电影搜索的,这里dianying.jsp页面写表单,action="helpSearchFilm".按下提交后地址栏:http://localhos ...

java 聊天室-java聊天室，设计流程

问题描述 java聊天室,设计流程我是一个java初学者,想用java编一个类似qq的聊天室,但是不清楚编聊天室的流程,所以请教一下前辈们.

机房收费重构——关于上下机的再思考

有句话叫做no zuo no die,我大概就是这种人吧.why?做机房收费系统的时候,按照一般方法也能实现,但这次做上下机的时候,总感觉这么做对自己来说,没什么提高,然后就停下来,重 ...

《新一代SDN——VMware NSX 网络原理与实践》——2.3 各厂商的网络虚拟化解决方案

2.3 各厂商的网络虚拟化解决方案介绍完几种Overlay技术之后,我们就需要对比一下几大厂商基于Overlay技术的网络虚拟化解决方案了.各家厂商的解决方案各有千秋,各有利弊.在这里介绍它们的网络 ...

云计算对中国模具制造行业的影响

云计算通过互联网来提供动态易扩展且经常是虚拟化的资源.云计算能大幅降低了信息化成本,推动信息技术普及与应用,促进工业化与信息化的广泛融合,是信息技术领域里的又一次革命. 云计算运用到pdm领域,有非常 ...

引领大数据技术创新加快大数据产业聚集

在近日公布的全市2015年度绩效目标考核中,高新区斩获开发区类一等奖,在各大开发区中排名第一. "这得益于近年来市委.市政府坚持围绕创新做文章,确立大数据这一主导产业,先人一步.棋高一筹,帮 ...

json-关于volley框架解析JSON数据的问题菜鸟一只，希望大神帮忙

问题描述关于volley框架解析JSON数据的问题菜鸟一只,希望大神帮忙现在想做一个天气预报的APP 我使用volley框架得到json数据为何list 中没有我要添加的数据解决方案你 ...

超常用的PHP正则表达式收集整理_正则表达式

以下就是对超常用的PHP正则表达式进行的收集整理,为了方便大家更快更好的掌握php正则表达式. 一.表单验证匹配验证账号,字母开头,允许 5-16 字节,允许字母数字下划线:^[a-zA-Z][a-z ...

jquery基础教程之数组使用详解_jquery

1. $.each(array, [callback]) 遍历[常用] 解释: 不同于例遍jQuery对象的$().each()方法,此方法可用于例遍任何对象.回调函数拥有两个参数:第一个为对象的成员 ...

C#如何查看可用内存容量

问题描述在.net2013中,如何通过C#代码实现查看内存剩余空间.(只能用支持WindowsStore的类) 解决方案解决方案二:Windows.System.MemoryManager需要wi ...

投资观察：两次冲万九不果的原因

群益证券(香港)研究部董事曾永坚恒生指数本周两次试图上冲19,000阻力不果,似乎19,000点除了暂成为市场的心理阻力外,期指相关和衍生工具活动,在上述水平生成的影响力也不少,形成指数往往接近这 ...

安全、清洁、普惠——未来城市交通的三个维度

个人交通问题目前正是全球焦点.城市交通问题现在是行业领域领导者们所优先考虑的议题,也是全球政治领导者在国内以及国际上所重点讨论的问题.现如今,全球64%的"交通位移"发生在城市内部 ...

四大微博开始对新用户进行实名注册

中介交易 SEO诊断淘宝客云主机技术大厅牛华网3月13日讯根据北京市2011年12月推出的<北京市微博客发展管理若干规定>,该<规定>将于2012年3月16日实施,1 ...

高铁视频监控系统必看五大要求

在安装架构铁路视频监控系统时,需要看五大要求,根据其线路应用特征和环境的特殊性,要考虑到各种常规监控应用系统以外的特殊因素,例如以下几个方面: 1.风雨雷电等自然现象风.雨.雷.电给室外摄像 ...

java.lang.reflect操作对象属性(域)的值

package reflect; import java.lang.reflect.Constructor; import java.lang.reflect.Field; import java.l ...

三星急了！新一代旗舰GalaxyS6下月发布？

三星旗舰Galaxy S6传闻谣言天天有,这一个实在有点没法接受.据韩国媒体Chosun Biz报道,三星将在下月初的CES 201 5大展上正式宣布新一代旗舰手机Galaxy S6.与此同时,S6 ...

sharepoint 中如何把 DateTimeControl 添加到 webpart 中切在指定的位置显示

问题描述我在webpart上用this.Controls.Add(newDateTimeControl())这样控件总是显示在页面上的最上边,如何让他显示在指定的网页的位置上谢谢解决方案解决方案 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.025 s.