普通反爬虫机制的应对策略

爬虫与反爬虫,这相爱相杀的一对,简直可以写出一部壮观的斗争史。而在大数据时代,数据就是金钱,很多企业都为自己的网站运用了反爬虫机制,防止网页上的数据被爬虫爬走。然而,如果反爬机制过于严格,可能会误伤到真正的用户请求;如果既要和爬虫死磕,又要保证很低的误伤率,那么又会加大研发的成本。

简单低级的爬虫速度快,伪装度低,如果没有反爬机制,它们可以很快的抓取大量数据,甚至因为请求过多,造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢,对服务器造成的负担也相对较小。所以,网站反爬的重点也是那种简单粗暴的爬虫,反爬机制也会允许伪装度高的爬虫,获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了。

这篇文章主要讨论使用Scrapy框架时,如何应对普通的反爬机制。

header检验

最简单的反爬机制,就是检查HTTP请求的Headers信息,包括User-Agent, Referer、Cookies等。

User-Agent

User-Agent是检查用户所用客户端的种类和版本,在Scrapy中,通常是在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表,然后新建一个random_user_agent文件:


  1. class RandomUserAgentMiddleware(object): 
  2.     @classmethod 
  3.     defprocess_request(cls, request, spider): 
  4.         ua = random.choice(spider.settings['USER_AGENT_LIST']) 
  5.         if ua: 
  6.             request.headers.setdefault('User-Agent', ua) 

这样就可以在每次请求中,随机选取一个真实浏览器的User-Agent。

Referer

Referer是检查此请求由哪里来,通常可以做图片的盗链判断。在Scrapy中,如果某个页面url是通过之前爬取的页面提取到,Scrapy会自动把之前爬取的页面url作为Referfer。也可以通过上面的方式自己定义Referfer字段。

Cookies

网站可能会检测Cookie中session_id的使用次数,如果超过限制,就触发反爬策略。所以可以在Scrapy中设置 COOKIES_ENABLED = False 让请求不带Cookies。

也有网站强制开启Cookis,这时就要麻烦一点了。可以另写一个简单的爬虫,定时向目标网站发送不带Cookies的请求,提取响应中Set-cookie字段信息并保存。爬取网页时,把存储起来的Cookies带入Headers中。

X-Forwarded-For

在请求头中添加X-Forwarded-For字段,将自己申明为一个透明的代理服务器,一些网站对代理服务器会手软一些。

X-Forwarded-For头一般格式如下


  1. X-Forwarded-For: client1, proxy1, proxy2 

这里将client1,proxy1设置为随机IP地址,把自己的请求伪装成代理的随机IP产生的请求。然而由于X-Forwarded-For可以随意篡改,很多网站并不会信任这个值。

限制IP的请求数量

如果某一IP的请求速度过快,就触发反爬机制。当然可以通过放慢爬取速度绕过,这要以爬取时间大大增长为代价。另一种方法就是添加代理。

很简单,在下载器中间件中添加:


  1. request.meta['proxy'] = 'http://' + 'proxy_host' + ':' + proxy_port 

然后再每次请求时使用不同的代理IP。然而问题是如何获取大量的代理IP?

可以自己写一个IP代理获取和维护系统,定时从各种披露免费代理IP的网站爬取免费IP代理,然后定时扫描这些IP和端口是否可用,将不可用的代理IP及时清理。这样就有一个动态的代理库,每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显,开发代理获取和维护系统本身就很费时费力,并且这种免费代理的数量并不多,而且稳定性都比较差。如果必须要用到代理,也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理。

在requests库中添加带认证的代理很简单,


  1. proxies = { 
  2.     "http": "http://user:pass@10.10.1.10:3128/", 

然而Scrapy不支持这种认证方式,需要将认证信息base64编码后,加入Headers的Proxy-Authorization字段:


  1. importbase64   
  2. # Set the location of the proxy 
  3. proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port 
  4. proxy_items = proxy_string.split('@') 
  5. request.meta['proxy'] = "http://%s" % proxy_items[1] 
  6.   
  7. # setup basic authentication for the proxy 
  8. user_pass=base64.encodestring(proxy_items[0]) 
  9. request.headers['Proxy-Authorization'] = 'Basic ' + user_pass 

动态加载

现在越来越多的网站使用ajax动态加载内容,这时候可以先截取ajax请求分析一下,有可能根据ajax请求构造出相应的API请求的URL就可以直接获取想要的内容,通常是json格式,反而还不用去解析HTML。

然而,很多时候ajax请求都会经过后端鉴权,不能直接构造URL获取。这时就可以通过PhantomJS+Selenium模拟浏览器行为,抓取经过js渲染后的页面。

需要注意的是,使用Selenium后,请求不再由Scrapy的Downloader执行,所以之前添加的请求头等信息都会失效,需要在Selenium中重新添加


  1. headers = {...} 
  2. for key, valuein headers.iteritems(): 
  3.     webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value 

另外,调用PhantomJs需要指定PhantomJs的可执行文件路径,通常是将该路径添加到系统的path路径,让程序执行时自动去path中寻找。我们的爬虫经常会放到crontab中定时执行,而crontab中的环境变量和系统的环境变量不同,所以就加载不到PhamtonJs需要的路径,所以最好是在申明时指定路径:


  1. driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs') 

作者:佚名

来源:51CTO

时间: 2025-01-06 21:44:57

普通反爬虫机制的应对策略的相关文章

SEO大师全面解析主流搜索引擎惩罚机制及应对策略

稍微有些经验的SEOer都知道,在SEO中,黑帽和白帽并没有很明确的界限,所以在网站优化的过程中,避免不了会有些站长不太了解搜索引擎的机制,还不知道怎么回事的情况下被搜索引擎认定是作弊行为而遭到惩罚. 其实搜索引擎并不是发现了作弊行为就要立即进行惩罚的,它的惩罚机制类似积分制,就像一个淘气顽皮的小学生在学校犯错误,一次两次老师看在眼里,三次四次记在心里,后来可能会给点警告,再后来情况严重到一定程度就要叫家长了.同样道理,每发现一个作弊嫌疑,搜索引擎就会给与网站一定的积分,当它认为你作弊累计达到一

常见的反爬虫和应对方法 (转)

0x01 常见的反爬虫 这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫.在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下. 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分.这里我们只讨论数据采集部分. 一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式.前两种比较容易遇到,大多数网站都从这些角度来反爬虫.第三种一些应用ajax的网站会采用,这样增大了爬取的难度. 0x02 通过Headers反爬虫 从用户

python解决网站的反爬虫策略总结_python

本文详细介绍了网站的反爬虫策略,在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下. 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分.这里我们只讨论数据采集部分. 一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式.前两种比较容易遇到,大多数网站都从这些角度来反爬虫.第三种一些应用ajax的网站会采用,这样增大了爬取的难度(防止静态爬虫使用ajax技术动态加载页面). 1.从用户请求的Headers反爬虫是最常见的反爬虫策略. 伪装header

互联网网站的反爬虫策略浅析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的. 一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十上百个请求循环重复抓取,这种爬虫对中小型网站往往是毁灭性打

谈谈反爬虫“政策与对策”

写博客,一部分是为了让自己今后能快速地复习之前学过的知识,整理下思路:另一方面是帮助到其他也遇到类似问题的童鞋.但是写博客很难坚持下来,原因嘛,各种各样.但说到底是没有"共鸣". 高山流水,难觅知音. 其实,建立起写博客的习惯,就是那些点点滴滴的小事:每天看着博客的访问量,点赞数增加:看到自己的文章被别人评论等等. 好了,废话不多说.今天来谈谈关于刷浏览量的问题.虽然这远远的偏离了写博客的初衷,但是了解下这类问题还是不错的,毕竟"技术并不犯法!". 反(反)爬虫机制

我们用爬虫爬数据的时候,怎么应对反爬虫,尤其是应对阿里的反爬虫

问题描述 我们用爬虫爬数据的时候,怎么应对反爬虫,尤其是应对阿里的反爬虫 我们用爬虫爬数据的时候,怎么应对反爬虫,尤其是应对阿里的反爬虫 解决方案 人家怎么防你就怎么破了,要是人家限制ip,你就多用几个IP去访问.如果你只是想采集数据,那用火车头采集器咯.阿里应该不防IP. 解决方案二: 反爬虫 解决方案三: 人家怎么防你就怎么破了,要是人家限制ip,你就多用几个IP去访问.如果你只是想采集数据,那用火车头采集器咯.阿里应该不防IP.试试 解决方案四: http://blog.csdn.net/

爬虫需谨慎!那些你不知道的爬虫反爬虫套路 学起来

前言 爬虫与反爬虫,是一个很不阳光的行业. 这里说的不阳光,有两个含义. 第一是,这个行业是隐藏在地下的,一般很少被曝光出来.很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实.这可能是出于公司战略角度来看的,与技术无关. 第二是,这个行业并不是一个很积极向上的行业.很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现,这些经验很难兑换成闪光的简历.面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路.本来程序员就有"文人相轻&quo

P2P平台面临的信息安全问题与应对策略

P2P网络贷款是近年来新兴的一种互联网金融模式,是一种个体和个体之间通过互联网平台实现的直接借贷.P2P网贷平台则为借贷双方提供信息流通交互.撮合.资信评估.投资咨询.法律手续办理等中介服务.近两年来,P2P行业经历了近乎爆炸式的增长.截止2015年12月底,网贷行业正常运营平台为2595家,平台历史累计成交量则突破一万亿元.种种迹象都表明,P2P有望发展成为一种重要的大众理财和社会融资方式,并对国民经济的发展做出一定贡献. 作为一个新兴行业,P2P在发展过程中也不可避免的出现一些弊端.除了提现

绿盟科技互联网安全威胁月报2016.10 请关注新型PLC蠕虫病毒及应对策略

绿盟科技发布了9月互联网安全威胁月报,月报编号NSFOCUS-16-10.9月,绿盟科技漏洞库新增108条,其中高危8条.本次周报建议大家关注 新型PLC蠕虫病毒及应对策略 , 绿盟科技研究员刚实现PLC蠕虫 荷兰研究员就要发布PLC Rootkit 据说这种攻击难以检测 9月数据统计 9月高危漏洞答复下降 2016年9月绿盟科技安全漏洞库共收录108个漏洞, 其中高危漏洞8个.相比8月份的高危漏洞数量大幅下降. 互联网安全漏洞在行业领域增多 BTS 软件漏洞或可劫持手机通讯基站安全威胁通告 来