同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）

　　试想一下，前面做的实验和例子都只有一个spider。然而，现实的开发的爬虫肯定不止一个。既然这样，那么就会有如下几个问题：1、在同一个项目中怎么创建多个爬虫的呢？2、多个爬虫的时候是怎么将他们运行起来呢？

　　说明：本文章是基于前面几篇文章和实验的基础上完成的。如果您错过了，或者有疑惑的地方可以在此查看：

　　一、创建spider

　　1、创建多个spider，scrapy genspider spidername domain

scrapy genspider CnblogsHomeSpider cnblogs.com

　　通过上述命令创建了一个spider name为CnblogsHomeSpider的爬虫，start_urls为http://www.cnblogs.com/的爬虫

　　2、查看项目下有几个爬虫scrapy list

[root@bogon cnblogs]# scrapy list
CnblogsHomeSpider
CnblogsSpider

　　由此可以知道我的项目下有两个spider，一个名称叫CnblogsHomeSpider，另一个叫CnblogsSpider。

　　更多关于scrapy命令可参考：http://doc.scrapy.org/en/latest/topics/commands.html

　　二、让几个spider同时运行起来

　　现在我们的项目有两个spider，那么现在我们怎样才能让两个spider同时运行起来呢？你可能会说写个shell脚本一个个调用，也可能会说写个python脚本一个个运行等。然而我在stackoverflow.com上看到。的确也有不上前辈是这么实现。然而官方文档是这么介绍的。

　　1、Run Scrapy from a script

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(MySpider)
process.start() # the script will block here until the crawling is finished

　　这里主要通过scrapy.crawler.CrawlerProcess来实现在脚本里运行一个spider。更多的例子可以在此查看：https://github.com/scrapinghub/testspiders

　　2、Running multiple spiders in the same process

通过CrawlerProcess

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider1(scrapy.Spider):
    # Your first spider definition
    ...

class MySpider2(scrapy.Spider):
    # Your second spider definition
    ...

process = CrawlerProcess()
process.crawl(MySpider1)
process.crawl(MySpider2)
process.start() # the script will block here until all crawling jobs are finished

通过CrawlerRunner

import scrapy
from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging

class MySpider1(scrapy.Spider):
    # Your first spider definition
    ...

class MySpider2(scrapy.Spider):
    # Your second spider definition
    ...

configure_logging()
runner = CrawlerRunner()
runner.crawl(MySpider1)
runner.crawl(MySpider2)
d = runner.join()
d.addBoth(lambda _: reactor.stop())

reactor.run() # the script will block here until all crawling jobs are finished

通过CrawlerRunner和链接(chaining) deferred来线性运行

from twisted.internet import reactor, defer
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging

class MySpider1(scrapy.Spider):
    # Your first spider definition
    ...

class MySpider2(scrapy.Spider):
    # Your second spider definition
    ...

configure_logging()
runner = CrawlerRunner()

@defer.inlineCallbacks
def crawl():
    yield runner.crawl(MySpider1)
    yield runner.crawl(MySpider2)
    reactor.stop()

crawl()
reactor.run() # the script will block here until the last crawl call is finished

　　这是官方文档提供的几种在script里面运行spider的方法。

　　三、通过自定义scrapy命令的方式来运行

　　创建项目命令可参考：http://doc.scrapy.org/en/master/topics/commands.html?highlight=commands_module#custom-project-commands

　　1、创建commands目录

mkdir commands

　　注意：commands和spiders目录是同级的

　　2、在commands下面添加一个文件crawlall.py

　　这里主要通过修改scrapy的crawl命令来完成同时执行spider的效果。crawl的源码可以在此查看：https://github.com/scrapy/scrapy/blob/master/scrapy/commands/crawl.py

from scrapy.commands import ScrapyCommand
from scrapy.crawler import CrawlerRunner
from scrapy.utils.conf import arglist_to_dict

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):
        return '[options]'  

    def short_desc(self):
        return 'Runs all of the spiders'  

    def add_options(self, parser):
        ScrapyCommand.add_options(self, parser)
        parser.add_option("-a", dest="spargs", action="append", default=[], metavar="NAME=VALUE",
                          help="set spider argument (may be repeated)")
        parser.add_option("-o", "--output", metavar="FILE",
                          help="dump scraped items into FILE (use - for stdout)")
        parser.add_option("-t", "--output-format", metavar="FORMAT",
                          help="format to use for dumping items with -o")

    def process_options(self, args, opts):
        ScrapyCommand.process_options(self, args, opts)
        try:
            opts.spargs = arglist_to_dict(opts.spargs)
        except ValueError:
            raise UsageError("Invalid -a value, use -a NAME=VALUE", print_help=False)

    def run(self, args, opts):
        #settings = get_project_settings()

        spider_loader = self.crawler_process.spider_loader
        for spidername in args or spider_loader.list():
            print "*********cralall spidername************" + spidername
            self.crawler_process.crawl(spidername, **opts.spargs)

        self.crawler_process.start()

　　这里主要是用了self.crawler_process.spider_loader.list()方法获取项目下所有的spider，然后利用self.crawler_process.crawl运行spider

　　3、commands命令下添加__init__.py文件

touch __init__.py

　　注意：这一步一定不能省略。我就是因为这个问题折腾了一天。囧。。。就怪自己半路出家的吧。

　　如果省略了会报这样一个异常

Traceback (most recent call last):
  File "/usr/local/bin/scrapy", line 9, in <module>
    load_entry_point('Scrapy==1.0.0rc2', 'console_scripts', 'scrapy')()
  File "/usr/local/lib/python2.7/site-packages/Scrapy-1.0.0rc2-py2.7.egg/scrapy/cmdline.py", line 122, in execute
    cmds = _get_commands_dict(settings, inproject)
  File "/usr/local/lib/python2.7/site-packages/Scrapy-1.0.0rc2-py2.7.egg/scrapy/cmdline.py", line 50, in _get_commands_dict
    cmds.update(_get_commands_from_module(cmds_module, inproject))
  File "/usr/local/lib/python2.7/site-packages/Scrapy-1.0.0rc2-py2.7.egg/scrapy/cmdline.py", line 29, in _get_commands_from_module
    for cmd in _iter_command_classes(module):
  File "/usr/local/lib/python2.7/site-packages/Scrapy-1.0.0rc2-py2.7.egg/scrapy/cmdline.py", line 20, in _iter_command_classes
    for module in walk_modules(module_name):
  File "/usr/local/lib/python2.7/site-packages/Scrapy-1.0.0rc2-py2.7.egg/scrapy/utils/misc.py", line 63, in walk_modules
    mod = import_module(path)
  File "/usr/local/lib/python2.7/importlib/__init__.py", line 37, in import_module
    __import__(name)
ImportError: No module named commands

　　一开始怎么找都找不到原因在哪。耗了我一整天，后来到http://stackoverflow.com/上得到了网友的帮助。再次感谢万能的互联网，要是没有那道墙该是多么的美好呀！扯远了，继续回来。

　　4、settings.py目录下创建setup.py（这一步去掉也没影响，不知道官网帮助文档这么写有什么具体的意义。）

from setuptools import setup, find_packages

setup(name='scrapy-mymodule',
  entry_points={
    'scrapy.commands': [
      'crawlall=cnblogs.commands:crawlall',
    ],
  },
 )

　　这个文件的含义是定义了一个crawlall命令，cnblogs.commands为命令文件目录，crawlall为命令名。

　　5. 在settings.py中添加配置：

COMMANDS_MODULE = 'cnblogs.commands'

　　6. 运行命令scrapy crawlall

　　最后源码更新至此：https://github.com/jackgitgz/CnblogsSpider

时间： 2024-09-30 22:41:00

同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）的相关文章

MySQL查看目前运行状况的两种方法_Mysql

第一种方法:利用mysql命令查看 MySQL 内建直接看 status 就可以看到系统常见讯息, 如下述范例: 复制代码代码如下: 1.$ mysql -u root -p 2.mysql> s "Threads: 2 Questions: 224857636 Slow queries: 229 Opens: 1740 Flush tables: 1 Open tables: 735 Queries per second avg: 137.566 $ mysql -u root -p

MySQL查看目前运行状况的两种方法

第一种方法:利用mysql命令查看 MySQL 内建直接看 status 就可以看到系统常见讯息, 如下述范例: 1.$ mysql -u root -p 2.mysql> s "Threads: 2 Questions: 224857636 Slow queries: 229 Opens: 1740 Flush tables: 1 Open tables: 735 Queries per second avg: 137.566 $ mysql -u root -p -e "st

[Python爬虫] scrapy爬虫系列 &lt;一&gt;.安装及入门介绍

前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更为广泛使用的Python爬虫框架是--Scrapy爬虫.这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章. 官方 Scrapy :http://scrapy.org/ 官方英文文档:http://doc.scrapy.or

scrapy 爬虫环境搭建入门（一）

Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据.抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样. Scr

【Python爬虫8】Scrapy 爬虫框架

安装Scrapy 新建项目 1定义模型 2创建爬虫 3优化设置 4测试爬虫 5使用shell命令提取数据 6提取数据保存到文件中 7中断和恢复爬虫使用Portia编写可视化爬虫 1安装 2标注 3优化爬虫 4检查结果使用Scrapely实现自动化提取 1.安装Scrapy 用pip命令安装Scrapy:pip install Scrapy wu_being@ubuntukylin64:~/GitHub/WebScrapingWithPython$ scrapy -h Scrapy 1.3.0

Scrapy爬虫框架教程（三）-- 调试(Debugging)Spiders

前言春节放假在老家没有网,所以最近没有更新.这周加班闲暇抽空赶紧来更新一篇.我们在写爬虫的时候经常需要修改xapth规则来获取所需的数据,而Scrapy的爬虫通常是在命令行中启动的,我们怎么去调试呢?下面我就为大家介绍两种我常用的方法. 工具和环境语言:python 2.7 IDE: Pycharm 浏览器:Chrome 爬虫框架:Scrapy 1.2.1 正文方法1 通过 scrapy.shell.inspect_response 函数来实现.以上一篇教程的爬虫为例: 1 2 3 4 5

scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据

在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤.如果你还没有安装好scrapy,又或者为scrapy的安装感到头疼和不知所措,可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考.这里就拿博客园来做例子吧,抓取博客园的博客列表并保存到json文件. 环境:CentOS 6.0 虚拟机 scrapy(如未安装可参考安装python爬虫scrapy踩过的那些坑和编程外的思考) 1.创建

如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）

我们在做scrapy爬虫的时候,爬虫经常被ban是常态.然而前面的文章如何让你的scrapy爬虫不再被ban,介绍了scrapy爬虫防屏蔽的各种策略组合.前面采用的是禁用cookies.动态设置user agent.代理IP和VPN等一系列的措施组合来防止爬虫被ban.除此以外官方文档还介绍了采用Google cache和crawlera的方法.这里就着重介绍一下如何利用crawlera来达到爬虫不被ban的效果.crawlera是一个利用代理IP地址池来做分布式下载的第三方平台,除了scrap

Scrapy爬虫入门

背景想要做一个垂直搜索的平台,初始的数据是王道,之后的数据来源希望依赖于"众包".刚开始想使用Nutch,因为能与solr,lucene兼容.但是Nutch是个通用的爬虫,可能不适合我的需求.我的需求是定向抓取,也不包括链接分析,站点发现等.而且Nutch的源只提供1.6后的版本,体验了之后发现网上现有的许多资料不太适合.于是尝试使用Scrapy这个python写成的爬虫框架.他是一个事件驱动的网络框架,可以针对页面定制自己的爬虫需求,并且扩展和编写比较简单. 安装使用 Scrapy

猜你喜欢

J2EE中使用Spring AOP框架和EJB组件

j2ee 快速发展的开发人员社区.对各种后端技术(包括JMS.JTA.JDO.Hibernate.iBATIS等等)的支持,以及(更为重要的)非侵入性的轻量级IoC容器和内置的AOP运行时,这些因素使 ...

Photoshop将照片转成逼真水彩画教程

在教程中我们将学习运用PS的滤镜功能将照片快速转成逼真水彩画效果,对了解PS的艺术效果滤镜有一定的帮助,希望朋友们喜欢. photoshop教程原图: 效果打开原图,复制图层,按Ctrl+U调整色相 ...

Flash绘画技巧：蓝色人物绘制教程

技巧|教程首先跟各位说一声不才,咱们的网站处处藏龙卧虎,蓝色的这个教程,在各位看来只能是班门弄斧,只希望可以抛砖引玉,贻笑大方之行请各位一定谅解! 开始进入教程! 1．打开flash,喜欢用哪个 ...

SEO须平常心：新站优化的三个阶段

网站做SEO是一个长期的过程,需要各方面的积累,搜索引擎对于网站的排名也不是基于一个点,而是基于整个面考虑.很多时候并不是我们想获得好的排名就会有好的排名,而是在网站所处的不同阶段都要做不同的累积 ...

汇编教程之窗口子类化

在这一讲,我们将学习什么是窗口子类化和怎样按你所想要的方式方便地使用它. 理论: 如果你曾经在 Windows 环境下编过程序,有时候就会发现:有一个现成的窗口,几乎有你所需要的全部功能,但还不完全一 ...

Photoshop制作非常破旧的灰绿色老照片教程

老照片制作大致分为两个大的步骤.首先是调色及虚化处理,主色选一些仿古色调如黄褐色.暗蓝色.灰绿色等,然后适当把图片特殊模糊处理做成有点朦胧的旧照片感觉.然后就是划痕部分的制作,可以选一些颓废的纹理素材 ...

极路由的无线穿墙模式怎么用

以下是小编为大家收集整理的<极路由的无线穿墙模式怎么用>全部内容,如果您喜欢小编的推荐,请继续关注学习啦. 在市面上,你们可以看到很多写着"穿墙王","超 ...

如何禁用Windows多媒体娱乐中心

1.打开运行对话框,键入"gpedit.msc"回车来打开本地组策略编辑器; 2.依次展开左侧的项:[计算机配置] – [管理模板] –[ windows组件]-- [wi ...

系统登陆后桌面无任何图标怎么办

发生此类故障原因:一般是由于用户操作不当,造成系统损坏造成. 解决方法如下: ①:首先我们以安全模式引导系统,进入控制面板. ②进入"密码"选项. ③将"用户配置文件 ...

如何快速给U盘设置自动播放

由于病毒或者认为的原因,我们插入优盘的时候不再提示自动播放窗口,怎么样重新开启呢?下面教你最快速的方法: 首先我们打开开始菜单,找到搜索框. 在搜索框中输入自动播放. 得到搜索结果,选择自动播放. ...

单链表-这个simplelist.h是怎么搞的？不太明白？关于c++的

问题描述这个simplelist.h是怎么搞的?不太明白?关于c++的这个simplelist.h是怎么搞的?不太明白? #if !defined_LIST_H_ #define LIST_H / ...

PHP实现从远程下载文件的方法_php技巧

本文实例讲述了PHP实现从远程下载文件的方法.分享给大家供大家参考.具体实现方法如下: <?php if ($_GET[xfer]) { if ($_POST[from] == "&q ...

TCP/IP体系结构-测试人员必须理解的

如果还想在测试这条路上继续走下去的话,那么下面这些东西就是我们必须去掌握的,至少你还不想止步于简单的黑盒测试--其实,一直想去接触Linux下的应用测试,这样能学到东西会很多,而且会非常的受用.之前听 ...

（五）java运算

java在运算的时候,会存在数据类型的转换,其中一种是自动类型转换,也称为隐式类型转换,这种转换需要满足一定的条件: 1.这两种类型是兼容的,例如同时都是整数类型或者都是数字类型 ...

Azure SDK 1.3中挂载调试器的错误现象

Windows Azure开发者的第四项任务:在Windows Azure SDK 1.3中挂载调试器的对于错误我安装了Windows Azure SDK1.3的一个版本.我创建了一个Azure叫作 ...

python 向量空间模型相似度计算求大神运行总是通不过

问题描述 python 向量空间模型相似度计算求大神运行总是通不过 #用向量空间模型计算两个字符串s和s1之间的相似度 from math import sqrt from collection ...

日本大数据产业鸟瞰

目前,日本面临着由于长期经济低迷导致国际地位下降.少子高龄化以及日益增大的社会保险费用和社会基础设施老化等诸多问题.日本政府为了扭转这一现状,保持经济持续增长,决定通过大力发展IT产业,特 ...

Symantec Backup Exec 2012 Agent for Linux 卸载

本文介绍一下如何卸载Symantec Backup Exec 2012 Agent for Linx.首先我们来看看Symantec_Backup_Exec2012管理员手册的文档介绍: 卸载 ...

Smarty结合Ajax实现无刷新留言本实例_php实例

看了标题你也许要说,留言本,很基本的东东啊!谁不会啊,还要用Smarty,这不找累吗?别急,我要表达的是一种编程的思想和结构,而不是证明我做的东西多有意义,通过它相信对初学者学习Smarty和ajax ...

表单中table一个单元格里有两个数据，就是一个td有两个input=text。怎么确定数据相关。

问题描述表单中table一个单元格里有两个数据,就是一个td有两个input=text.怎么确定数据相关. 表单中table一个单元格里有两个数据,就是一个td有两个input=text.怎么确定数 ...

百度贴吧将开放官方平台宣称已有大品牌入驻

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 百度CEO李彦宏与吧友现场互动(腾讯科技配图) 12月3日 ...

silverlight 窗体切换与窗体之间传值的实现

1.只有切換頁面 2.加上頁面傳值的功能第一部份:切換頁面同樣的先建立一個新的Silverlight專案分別建立兩個User Control,並且名命為PageSwitcher.Page2 ...

www-菜鸟提问：怎求求求求求

问题描述菜鸟提问:怎求求求求求 JAVA的容.系.类.都是些什么? 怎样使用Java的数组.例子? 解决方案这个问题举个栗子吧针对一维数组 //方法一数组动态赋值指定数组长度该方法是提 ...

500 c币悬赏! vs 2008学生管理系统sql 2005,我有源码与使用说明,帮我录制一个演示视频,急求！

问题描述因毕设急需演示视频,本人sqlserver无法连接上,急需吧友根据我的源码录制一个一分到一分半的演示视频,100c币,有意者留下qq我和你联系http://ask.csdn.net/ques ...

IPv6设置后如何解决MySQL无法连接localhost的问题_Mysql

使用phpmyadmin或者navicat链接数据库时提示[客户端软件无法连接localhost] 经检查发现是IPV6地址监听了3306端口,而客户端软件不支持IPV6. 新开的系统或者配置过IPV ...

MySQL生产库Insert了2次同样的记录但是主键ID是不一样的问题的分析过程_Mysql

Email里面收到朋友laopan的求助 laopan:insert into HudsonResult(JobID,EnvironmentID,FirstSessionID,RerunSession ...

提高网站流量6步

中介交易 SEO诊断淘宝客云主机技术大厅一.信息推广信息推广侧重点,只要在于找到高效人气的地方投放信息,达到聚拢流量的方法,如E话通.QQ群.UC群.百度贴吧等,还有一种利用群发软件,如:论 ...

如何应对大数据安全问题

这是明确的大数据时代,但它不一定是保证大数据安全的时代.有些大型企业的数据库遭到了可怕的大规模破坏,包括家得宝.塔吉特.NiemenMarcus,以及最近的阿什利麦迪逊公司.大多数大数据的收集器做得远 ...

爱奇艺获“特别贡献奖”

本报讯(记者师文静)15日,一年一度的<新周刊>"新锐榜"在青岛揭晓,爱奇艺荣获"优化生活特别贡献奖",是2012年度唯一上榜的视频企业. < ...

乐视网的股价遭到重创

近来,乐视网(300104,股吧)被质疑多个数据涉嫌虚假,在诸多媒体的集体炮轰之下,乐视网的股价遭到重创.质疑方一再质疑,而乐视网也尽量一一"挡拆",以减少对自己的杀伤.为了挽大厦 ...

热搜