如何让你的scrapy爬虫不再被ban

　　前面用scrapy编写爬虫抓取了自己博客的内容并保存成json格式的数据（scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据）和写入数据库（scrapy爬虫成长日记之将抓取内容写入mysql数据库）。然而，这个爬虫的功能还是过于弱小，一旦目标网站设置了爬虫的限制，我们的爬虫也就失效了。因此这里重点讲述一下如何避免scrapy爬虫被ban。本门的所有内容都是基于前面两篇文章的基础上完成的，如果您错过了可以点击此回看：scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据，scrapy爬虫成长日记之将抓取内容写入mysql数据库

　　根据scrapy官方文档：http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned里面的描述，要防止scrapy被ban，主要有以下几个策略。

动态设置user agent
禁用cookies
设置延迟下载
使用Google cache
使用IP地址池（Tor project、VPN和代理IP）
使用Crawlera

　　由于Google cache受国内网络的影响，你懂得；Crawlera的分布式下载，我们可以在下次用一篇专门的文章进行讲解。所以本文主要从动态随机设置user agent、禁用cookies、设置延迟下载和使用代理IP这几个方式。好了，入正题：

　　1、创建middlewares.py

　　scrapy代理IP、user agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制，下面我们创建middlewares.py文件。

[root@bogon cnblogs]# vi cnblogs/middlewares.py

import random
import base64
from settings import PROXIES

class RandomUserAgent(object):
    """Randomly rotate user agents based on a list of predefined ones"""

    def __init__(self, agents):
        self.agents = agents

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.settings.getlist('USER_AGENTS'))

    def process_request(self, request, spider):
        #print "**************************" + random.choice(self.agents)
        request.headers.setdefault('User-Agent', random.choice(self.agents))

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        proxy = random.choice(PROXIES)
        if proxy['user_pass'] is not None:
            request.meta['proxy'] = "http://%s" % proxy['ip_port']
            encoded_user_pass = base64.encodestring(proxy['user_pass'])
            request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
            print "**************ProxyMiddleware have pass************" + proxy['ip_port']
        else:
            print "**************ProxyMiddleware no pass************" + proxy['ip_port']
            request.meta['proxy'] = "http://%s" % proxy['ip_port']

　　类RandomUserAgent主要用来动态获取user agent，user agent列表USER_AGENTS在settings.py中进行配置。

　　类ProxyMiddleware用来切换代理，proxy列表PROXIES也是在settings.py中进行配置。

　　2、修改settings.py配置USER_AGENTS和PROXIES

　　a)：添加USER_AGENTS

USER_AGENTS = [
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
]

　　b)：添加代理IP设置PROXIES

PROXIES = [
    {'ip_port': '111.11.228.75:80', 'user_pass': ''},
    {'ip_port': '120.198.243.22:80', 'user_pass': ''},
    {'ip_port': '111.8.60.9:8123', 'user_pass': ''},
    {'ip_port': '101.71.27.120:80', 'user_pass': ''},
    {'ip_port': '122.96.59.104:80', 'user_pass': ''},
    {'ip_port': '122.224.249.122:8088', 'user_pass': ''},
]

　　代理IP可以网上搜索一下，上面的代理IP获取自：http://www.xici.net.co/。

　　c)：禁用cookies

COOKIES_ENABLED=False

d)：设置下载延迟

DOWNLOAD_DELAY=3

e)：最后设置DOWNLOADER_MIDDLEWARES

DOWNLOADER_MIDDLEWARES = {
#    'cnblogs.middlewares.MyCustomDownloaderMiddleware': 543,
    'cnblogs.middlewares.RandomUserAgent': 1,
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
    #'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
    'cnblogs.middlewares.ProxyMiddleware': 100,
}

保存settings.py

3、测试

[root@bogon cnblogs]# scrapy crawl CnblogsSpider

　　源码更新至此：https://github.com/jackgitgz/CnblogsSpider

　　篇外话：本文的user agent和proxy列表都是采用settings.py的方式进行设置的，实际生产中user agent和proxy有可能会经常更新，每次更改配置文件显得很笨拙也不便于管理。因而，可以根据需要保存在mysql数据库。

时间： 2024-10-26 03:02:48

如何让你的scrapy爬虫不再被ban的相关文章

如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）

我们在做scrapy爬虫的时候,爬虫经常被ban是常态.然而前面的文章如何让你的scrapy爬虫不再被ban,介绍了scrapy爬虫防屏蔽的各种策略组合.前面采用的是禁用cookies.动态设置user agent.代理IP和VPN等一系列的措施组合来防止爬虫被ban.除此以外官方文档还介绍了采用Google cache和crawlera的方法.这里就着重介绍一下如何利用crawlera来达到爬虫不被ban的效果.crawlera是一个利用代理IP地址池来做分布式下载的第三方平台,除了scrap

同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）

试想一下,前面做的实验和例子都只有一个spider.然而,现实的开发的爬虫肯定不止一个.既然这样,那么就会有如下几个问题:1.在同一个项目中怎么创建多个爬虫的呢?2.多个爬虫的时候是怎么将他们运行起来呢? 说明:本文章是基于前面几篇文章和实验的基础上完成的.如果您错过了,或者有疑惑的地方可以在此查看: 安装python爬虫scrapy踩过的那些坑和编程外的思考 scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据 scrapy爬虫成长日记之将抓取内容写入mysql数据库如何让

[Python爬虫] scrapy爬虫系列 &lt;一&gt;.安装及入门介绍

前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更为广泛使用的Python爬虫框架是--Scrapy爬虫.这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章. 官方 Scrapy :http://scrapy.org/ 官方英文文档:http://doc.scrapy.or

python-请问scrapy爬虫使用代理的问题

问题描述请问scrapy爬虫使用代理的问题我用scrapy爬虫来抓取数据,购买了一些代理,看scrapy文档上面介绍使用代理的话要编写Middleware,但是我不打算使用Middleware,我尝试了这样 def start_requests(self): name = my_name password = password proxy = my proxy return[ FormRequest(url,formate={'account':my_name,'password':pass

【Python爬虫8】Scrapy 爬虫框架

安装Scrapy 新建项目 1定义模型 2创建爬虫 3优化设置 4测试爬虫 5使用shell命令提取数据 6提取数据保存到文件中 7中断和恢复爬虫使用Portia编写可视化爬虫 1安装 2标注 3优化爬虫 4检查结果使用Scrapely实现自动化提取 1.安装Scrapy 用pip命令安装Scrapy:pip install Scrapy wu_being@ubuntukylin64:~/GitHub/WebScrapingWithPython$ scrapy -h Scrapy 1.3.0

scrapy爬虫不能自动爬取所有页面

问题描述 scrapy爬虫不能自动爬取所有页面学习scrapy第三天,在爬取wooyun白帽子精华榜的时候,不能爬取所有的页面. items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class Wooyu

Macbook环境完整安装python编程环境及Scrapy爬虫框架

第一.检查和更新python环境默认Macbook是带有python2.7版本的,所以我们认为不够新,可以到官方网站找到MAC系统的安装包,然后进行重新安装. 代码如下复制代码官方下载网站:https://www.python.org/download 因为考虑到一些环境的兼容支持,所以我不打算升级到python3.4版本,还是用2.7版本. 第二.安装pip工具包这个必须安装,是基于python的管理工具包. 代码如下复制代码 wget https://b

Scrapy爬虫入门

背景想要做一个垂直搜索的平台,初始的数据是王道,之后的数据来源希望依赖于"众包".刚开始想使用Nutch,因为能与solr,lucene兼容.但是Nutch是个通用的爬虫,可能不适合我的需求.我的需求是定向抓取,也不包括链接分析,站点发现等.而且Nutch的源只提供1.6后的版本,体验了之后发现网上现有的许多资料不太适合.于是尝试使用Scrapy这个python写成的爬虫框架.他是一个事件驱动的网络框架,可以针对页面定制自己的爬虫需求,并且扩展和编写比较简单. 安装使用 Scrapy

scrapy 爬虫环境搭建入门（一）

Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据.抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样. Scr

猜你喜欢

在PHP中用Socket发送电子邮件(三)

邮件发送处理下面是真正的秘密了,可要看仔细了.:) ------------------------------------------------------------------------- ...

Photoshop实例教程:古堡风格复古人像色

重古典欧式人像摄影以其夸张的视觉盛宴一直引领时尚前沿,风靡摄影界,不同于日系摄影的小温暖小清新,欧美古典风人像作品是以其惊艳大气神秘的视觉语言见长,今天我们就和网友来一起分享来自时尚摄影师胡枫的宝贵经 ...

Photoshop CS轻松合并全景图

Photoshop CS的图像合并是Adobe公司为Photoshop迎合数码时代的快速发展增加的新功能,大家可以用这个新工具方便地做图片拼贴尤其是制作全景图. 打开Photoshop CS,我们从菜 ...

PS教程:90后美女照片转仿手绘效果

侧面人物转手绘跟正面像转手绘的方法一样,只是在处理的时候稍微复杂一点.因为五官部分有一定的透视,需要根据原图慢慢进行刻画.原图最终效果 [1] [2] [3] [4] [5] [6] 下一页

ASP.NET2.0自动搜索文件组成导航系统

asp.net|导航 ASP.NET2.0的导航系统确实给web开发带来方便,但是用过的用户就会发现导航系统有一个很大的缺陷:他需要你手工编写web.sitemap,web.sitemap的语法用语句 ...

从零开始学习jQuery(一) 开天辟地入门篇

一.摘要本系列文章将带您进入jQuery的精彩世界,其中有很多作者具体的使用经验和解决方案,即使你会使用jQuery也能在阅读中发现些许秘籍. 本篇文章是入门第一篇,主要是简单介绍jQuery,通过 ...

理解和处理SQL Server数据库中的孤立用户

问题把数据库从一个服务器实例附加和恢复到另一个实例中是数据库管理员执行的常见的任务.附加或者恢复一个数据库之后,之前在数据库中创建和配置的登录名已经不能访问了.这个问题最常见的症状是应用程序会遇 ...

使用Visual Studio 2010在WPF中构建数据驱动的大纲/细节业务表

概述在本实验中,您将了解如何使用 Visual Studio 2010 工具在 WPF 4.0 中创建和自定义大纲/细节业务表. 目标完成此实验后,您将学会: 如何在 WPF 项目中使用" ...

Java集合接口综述

集合总是需要迭代的,我们确实需要探察集合中的每一个元素,所以集合接口都无一例外的继承了Iterable<T>接口 ,而该接口的唯一方法 : Iterator<T> iterat ...

css中元素水平垂直居中4种方法介绍

table-cell轻松设置文本图片水平垂直居中让一个元素垂直居中的思路:把这个元素的容器设置为table-cell,也就是具有表格单元格的特性,再使用vertical-align(这个属性对b ...

在Word2010中以粘贴链接形式链接文件

如果用户希望在Word2010文档中创建链接向其他文件部分内容的链接,而非链接向整个文件,则可以借助"选择性粘贴"功能实现.以链接Excel表格中的部分数据为例,操作步骤如下所述: ...

怎么删除最近使用的Word2010文档记录

word2010为了方便用户找寻自己上次打开的文档,有个可以记录你最近使用过的文档的功能.这个功能确实方便了我们日常办公室工作,但是有利就有弊,这样就泄露了我们那些处于隐私的文档,可是该怎么删除或 ...

win7系统玩游戏提示“配色方案正在修改”的解决方法

1. 在桌面空白处用鼠标单击右键选择"个性化",进入个性化设置的选项; 2. 在个性化设置中是可以更改系统的主题.配置方案,用户可随变根据自己的喜好来选择自己习惯的主题进行修改 ...

Win8系统文件夹显示出提示信息的方法

在Windows 8系统中,有很多细小的功能不太为人所知,但又能不小地提高使用效率.比如,我们想要让鼠标指向某个文件夹的时候,能够显示文件夹的相关提示信息以及含有的内容,要怎么做呢? 操作步骤: 1. ...

java 线程详解

一.概念 1.1 基本概念进程是程序执行的一个实例,比如说,10个用户同时执行IE,那么就有10个独立的进程(尽管他们共享同一个可执行代码). 进程的特点,每一个进程都有自己的独立的一块内存空间.一 ...

通过配置实现多种需求下的地图展示

1.背景对于一般性的地图显示需求,我们只需要知道地图的一个固定URL,然后知道要显示的范围和要显示的级别以及每个级别的scale等即可. 但是如果我们遇到下面几种情况时,又该如何. (1)需要显示的 ...

面向 Windows 系统管理员的 Linux: 使用 GNOME 桌面工具管理 Linux

简介: 使用 Linux 并不意味着您的工作仅局限于命令行工具.当然,大多数经验丰富的 Linux 管理员使用命令行工具更为方便,并且管理更为高效.然而,GNOME 项目提供一些卓越的工具,可使用图形 ...

大数据的真正价值在哪里？

看一看所有与大数据相关的活动,我们应该问一个问题:究竟有多少大数据在实际上是有用的.根据常识稍微思考一下,我们就会发现只有一小部分. 我已经与数据打交道超过40年.在前互联网的时代,我们经历了所谓的数 ...

新手问题：在asp.net里怎样使用和写函数(Function)、子程序(Sub)

问题描述各位前辈:我想写一个读取设备类型的函数(或子程序,我也不知道用那种),然后把读出的数据放入<asp:ListBox>里,再在表单文件中调用该函数(或子程序),我的写法是这样的:文 ...

国际卡组织牵手第三方瞄准中国网上移动支付

曹金玲除了传统的真实银行卡业务,来自境外的国际卡组织已经"瞄上"中国网上支付和移动支付市场,并开始寻求与国内第三方支付企业之间的进一步合作. 牵手第三方瞄准网上移动支付万事达 ...

事情正在起变化——中国社会化营销进入第三阶段

"社会化营销"这个概念,在中国从一个在专业的研究者.意见领袖的博客里进行布道的新锐概念,到现在成为了每一个品牌和企业的营销管理者日常使用的高频率词汇,只用了短短的几年时间. 但是在 ...

云IAM市场进化应对新老IT挑战

单点登录继续成为云身份和访问管理系统的主要驱动力,然而BYOD和影子IT为这些工具带来了新的挑战. 访问控制在许多公司的云安全战略中不断起到关键的作用.其结果是,身份和访问管理市场有望在未来几年内获得 ...

数据处理-ROracle安装的时候遇见的问题，求大神们帮帮忙啊！！！！！

问题描述 ROracle安装的时候遇见的问题,求大神们帮帮忙啊!!!!! --- 在此連線階段时请选用CRAN的鏡子 --- also installing the dependency 'DBI' ...

英特尔下半年投产8核至强处理器

北京时间5月27日早间消息,据国外媒体报道,英特尔发言人尼克·努普佛(Nick Knupffer)周二表示,该公司今年下半年将投产一款处理能力更强大的至强处理器.新款处理器将集成8个内核,并支持多线程 ...

甲骨文的医疗版图：临床大数据提升中国药企竞争力

"在医药研发领域,最为重要的就是数据."甲骨文健康科学产品线北亚区总经理Jeff Lam表示. "甲骨文健康科学产品线北亚区总经理Jeff Lam 在2015年席卷中国医 ...

ASP编程入门进阶（五）：内置对象Response_ASP基础

通过对Request对象的学习,可以了解到,Request对象是服务器端用来获取客户端的信息的.但作为服务器和客户端进行交互,是不是还缺少服务器端向客户端发送信息呢?对象Response正是担任此责任 ...

21天学习android开发教程之MediaPlayer_Android

本文介绍MediaPlayer的使用.MediaPlayer可以播放音频和视频,另外也可以通过VideoView来播放视频,虽然VideoView比MediaPlayer简单易用,但定制性不如用Med ...

PHP下SSL加密解密、验证、签名方法（很简单）_php技巧

超级简单,依赖于OpenSSL扩展,这里就不多废话了,直接奉上代码签名: function sign($data) { //读取私钥文件 $priKey = file_get_contents('k ...

一个判断抢购时间是否到达的简单的js函数_javascript技巧

原型函数,功能很简单,找到时钟的id,计算数值,到达抢购时间时执行任务. function nwt() {var str=$('#deal_expiry_timer_e3cdcd2a').text() ...

java-在初入JavaWep中出现情况

问题描述在初入JavaWep中出现情况刚准备预习javaWep时,按照书本要求做时,出现这样的提示 An error has occurred.See error log for more det ...

热搜