Python实现从脚本里运行scrapy的方法_python

本文实例讲述了Python实现从脚本里运行scrapy的方法。分享给大家供大家参考。具体如下：

复制代码代码如下:

#!/usr/bin/python
import os
os.environ.setdefault('SCRAPY_SETTINGS_MODULE', 'project.settings') #Must be at the top before other imports
from scrapy import log, signals, project
from scrapy.xlib.pydispatch import dispatcher
from scrapy.conf import settings
from scrapy.crawler import CrawlerProcess
from multiprocessing import Process, Queue
class CrawlerScript():
    def __init__(self):
        self.crawler = CrawlerProcess(settings)
        if not hasattr(project, 'crawler'):
            self.crawler.install()
        self.crawler.configure()
        self.items = []
        dispatcher.connect(self._item_passed, signals.item_passed)
    def _item_passed(self, item):
        self.items.append(item)
    def _crawl(self, queue, spider_name):
        spider = self.crawler.spiders.create(spider_name)
        if spider:
            self.crawler.queue.append_spider(spider)
        self.crawler.start()
        self.crawler.stop()
        queue.put(self.items)
    def crawl(self, spider):
        queue = Queue()
        p = Process(target=self._crawl, args=(queue, spider,))
        p.start()
        p.join()
        return queue.get(True)
# Usage
if __name__ == "__main__":
    log.start()
    """
    This example runs spider1 and then spider2 three times.
    """
    items = list()
    crawler = CrawlerScript()
    items.append(crawler.crawl('spider1'))
    for i in range(3):
        items.append(crawler.crawl('spider2'))
    print items

希望本文所述对大家的Python程序设计有所帮助。

时间： 2024-12-23 02:26:08

Python实现从脚本里运行scrapy的方法_python的相关文章

在maven工程里运行java main方法_java

在Maven工程里运行Java main方法复制代码代码如下: mvn compilemvn exec:java -Dexec.mainClass="com.vineetmanohar.module.Main"mvn exec:java -Dexec.mainClass="com.vineetmanohar.module.Main" -Dexec.args="arg0 arg1 arg2"

python脚本实现查找webshell的方法_python

本文讲述了一个python查找 webshell脚本的代码,除了查找webshell功能之外还具有白名单功能,以及发现恶意代码发送邮件报警等功能,感兴趣的朋友可以自己测试一下看看效果. 具体的功能代码如下: #!/usr/bin/env python #-*- coding: utf-8 -*- import os import sys import re import smtplib #设定邮件 fromaddr = "smtp.qq.com" toaddrs = ["vo

python下载文件时显示下载进度的方法_python

本文实例讲述了python下载文件时显示下载进度的方法.分享给大家供大家参考.具体分析如下: 将这段代码放入你的脚本中,类似:urllib.urlretrieve(getFile, saveFile, reporthook=report) 第三个参数如下面的函数定义report,urlretrieve下载文件时会实时回调report函数,显示下载进度 def report(count, blockSize, totalSize): percent = int(count*blockSize*10

python实现在pickling的时候压缩的方法_python

本文实例讲述了python实现在pickling的时候压缩的方法.分享给大家供大家参考. 具体方法如下: import cPickle,gzip def save(filename,*objects): fil1 = gzip.open(filename,'wb') for obj in objects: cPickle.dump(obj,fil1,protocol = 2) fil1.close() def load(filename): fil1 = gzip.open(filename,'

Python实现Linux下守护进程的编写方法_python

本文实例讲述了Python实现Linux下守护进程的编写方法,分享给大家供大家参考,相信对于大家的Python程序设计会起到一定的帮助作用.具体方法如下: 1. 调用fork()以便父进程可以退出,这样就将控制权归还给运行你程序的命令行或shell程序.需要这一步以便保证新进程不是一个进程组头领进程(process group leader).下一步,'setsid()',会因为你是进程组头领进程而失败.进程调用fork函数时,操作系统会新建一个子进程,它本质上与父进程完全相同.子进程从父进程继

Python读写Json涉及到中文的处理方法_python

今天在帮前端准备数据的时候,需要把数据格式转成json格式,说实话,涉及到中文有时候真的是很蛋疼,除非对Python的编码规则比较了解,不然处理起来真的很蛋疼. 整个逻辑我们需要处理的是把一些文章处理,生成多个html文件,然后用json来显示文章的列表,图片,摘要和标题. 思路为了以后的数据扩展,那必须有一个数据库,我的想法就是自己写一个简单的网页做为提交输入,然后post到后台以后录入到数据库中,再写一个展示文章的页面,展示效果正确后,写一个requests动态的把所有的数据都爬下来生成

Linux 下 Python 实现按任意键退出的实现方法_python

某天在群内有同学问到,在python下我用input或者raw_input都得输入完后回车才能获取到输入的值,那如何实现任意键退出暂停等功能呢,我当时也没有多想,因为接触python时间也不算长,主要还是Linux下的. 当然,Windows系统下会稍微简单一些,Windows系统下如果你安装了python的环境,默认自带的一个模块叫做msvcrt,import msvcrt,然后调用msvcrt.getch()即可.接下来即Linux下实现python版本的按任意键退出. 初学Python时在

python基于windows平台锁定键盘输入的方法_python

本文实例讲述了python基于windows平台锁定键盘输入的方法.分享给大家供大家参考.具体分析如下: pywin32中没有BlockInput这个函数.VC++中有,发现这个方法就可以了. 该代码可阻断windows平台下的鼠标键盘输入,如下所示: # coding: UTF-8 import time from ctypes import * user32 = windll.LoadLibrary('user32.dll') user32.BlockInput(True); time.sl

Python实现从订阅源下载图片的方法_python

本文实例讲述了Python实现从订阅源下载图片的方法.分享给大家供大家参考.具体如下: 这段代码是基于python 3.4实现的,和python2.X 比起来有了好多差别啊. 这是一个练习,数据源来自网易订阅.代码如下: 复制代码代码如下: __author__ = 'Saint' import os import urllib.request import json from html.parser import HTMLParser # 从获取的网页内容筛选图片的内容 class MyHt

猜你喜欢

PostgreSQL 9.5+ 高效分区表实现 - pg_pathman

PostgreSQL 9.5+ 高效分区表实现 - pg_pathman 作者 digoal 日期 2016-10-24 标签 PostgreSQL , 分区表 , pg_pathman , cust ...

带你玩转Vista家长控制让上网健康安全

如今网络可以说是精华与糟粕并存,网络可以开阔孩子的视野,学习很多知识,同时也可能让还没有养成自己的人生观和世界观的孩子走向歧途.对于家庭上网的用户来说,如何让孩子健康上网已经是第一要事.在教育沟通 ...

用C#实现office2003风格的菜单组件

简介仅仅使用一行简单的程序,你就能够使你的Windows窗体的所有菜单和上下文菜单具有office2003的菜单外观.同样地,你也可以只用一行程序,就能为你的菜单加上漂亮的图标.本文实现的是一个具有 ...

Photoshop制作非常酷的315金属质感字

效果字由多层构成:底部有描边层,中间有质感层,顶部有纹理和高光层;每一层都是用图层样式来完成,只要设置好样式后,再修改图层不透明度和填充度,让图层更好融合. 最终效果 1.新建一个1000 * 6 ...

Dreamweaver制作目录树

在总目录的前方有一个"+",一按这个"+",即可显示其下子目录,"+"即变成"-",一按"-",即可 ...

Photoshop打造性感美女超炫海报教程

效果图原图 1.打开原图素材,创建色彩平衡调整图层,参数及效果如下图. 2.用钢笔工具勾出下图所示的光线造型,这步需要的是耐心,为什么要绘制到文档外面那么多呢?是为了方便接下来这一步. 3.选择 ...

PDFMaker文件遗失无法找到怎么办

相信大家在安装完Office2007和Adobe Acrobat Professional 8.0后,制作pdf文件时出现过"PDFMaker文件遗失",最初发现是文件格式问题 ...

1.首先,我们需要操作的就是,需要在我们自己的电脑桌面上找到我们需要的AI软件, 2.找到软件之后,我们用鼠标点击这个ai软件之后,我们就会看到软件在慢慢的启动开来; 3.进入AI软件之后,我们就 ...

如何在winXP系统中快速清除explorer.exe病毒？

现在的电脑越来越高科技化了,具备的功能也是越来越多了,咱们很多经济方面的东西也开始在网上操办了,所以说,对于用户来说,最怕的便是自己的电脑中毒,因为电脑一旦中毒,就有可能会危机到自己的经济安全,造 ...

jQuery中replaceWith()方法用法实例_jquery

本文实例讲述了jQuery中replaceWith()方法用法.分享给大家供大家参考.具体分析如下: 此方法将所有匹配的元素替换成指定的HTML或DOM元素. 需要注意的是此方法是追加内容,也就是原来 ...

控件坐标-.net 怎么获取控件在屏幕中的坐标

问题描述 .net 怎么获取控件在屏幕中的坐标看网上用函数:Point p = Button2.PointToScreen(Button2.Location); 但是老是提示错误,我引用了using ...

代码执行的效率

第一个例子 PHP中Getter和Setter的效率(来源reddit) 这个例子比较简单,你可以跳过. 考虑下面的PHP代码:我们可看到,使用Getter/Setter的方式,性能要比直接读写成员变 ...

解析“危机时期”企业VoIP市场走向

1.VoIP市场状况 VoIP在全球经过近6年的发展,随着其技术的成熟及各种人为管制的放松,开始进入一个新的发展时期.据Frost&Sullivan关于VoIP的市场数据显示,2000年通过批 ...

spring配置datasource三种方式

spring配置datasource三种方式 1.使用org.springframework.jdbc.datasource.DriverManagerDataSource 说明:DriverMana ...

安装解压版本的MySQL，安装过程中的常见命令，检查windows系统错误日志的方式来检查MySQL启动错误，关于Fatal error: Can&#39;t open and lock privilege

安装mysql 下载mysql-5.6.26-winx64,并解压到:D:\Installed\mysql-5.6.26-winx64\mysql-5.6.26-winx64 创建data目录创建m ...

深度学习-theano框架的lstm数据集格式讲解

问题描述 theano框架的lstm数据集格式讲解 theano的lstm,dataset是怎样的一个格式. 我看官网的解释,说是train y和test y都是0和1,就是二分类,这个没问题.但是t ...

CS安装卸载测试总结

最近在执行C/S控制客户端安装卸载的测试,通过自己的测试经历和网上的资料,总结以下安装卸载测试点: 安装测试: 1.GUI测试:安装过程中所有的界面显示,提示信息等是否正确 2.兼容性测试:在不同的操 ...

移动家庭用户可申请短号服务

重庆(记者刘淳)昨日,重庆晨报记者从中国移动重庆公司获悉,为方便移动家庭用户使用,推出以家庭为单位的品牌移动i家,以及创新性业务产品家庭账户和家庭短号. 所谓家庭账户,是以家庭为单位进行话费管理的产 ...

AVG 7.5.1.43 版本序列号集合_注册码

AVG又发布了新的版本地址:http://www.grisoft.cz/filedir/inst/avgas-setup-7.5.1.43.exe 这是我收藏的几个号, 70-THXMV1-PM-C ...

随时给自己贴的图片加文字的php代码_php实例

<? Header( "Content-type: image/jpeg"); function makethumb($srcFile,$text,$size=12,$R ...

OGMRip 0.13.7发布 DVD编码转换工具

OGMRip是一个DVD编码转换应用程序,使用各种解码器,将DVD编码转换成AVI/OGM文件格式.它依赖于MPlayer.MEncoder.ogmtools和oggenc,进行文件转码. OGMRi ...

安装时间大幅缩短迅雷7.9.5正式版极速体验

中介交易 SEO诊断淘宝客云主机技术大厅通信世界网讯(CWW) 近日,迅雷正式发布了迅雷7.9.5版,大幅提升了软件的安装速度,新增了悬浮窗任务信息面板,对离线下载进行了功能增强和完善,还对部 ...

网络商品交易及有关服务管理办法

9月13日下午消息,国家工商总局昨日就<网络商品交易及有关服务管理办法(征求意见稿)>公开征求意见.该意见稿规定,现阶段允许从事网络交易的自然人暂不办理工商登记注册.这意味着,个人网店或将 ...

水晶报表列显示不全的问题

问题描述我做了一个水晶报表,横向的列有十几个,因为列太多,在报表上只显示了一部分,还有其余很多列没有显示出来在我数据导出的时候也不能把所有的数据导出,请问这个是什么问题?要怎么解决? 解决方案解决 ...

Vue.js之父子组件

<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...

韩国裁定网络实名制违宪

本报讯韩国宪法裁判所8名法官23日一致作出判决,裁定http://www.aliyun.com/zixun/aggregation/32405.html">网络实名制违宪.韩国放送通信 ...

JS实现HTML表格排序功能_javascript技巧

本文实例为大家分享了JavaScript实现HTML表格排序功能,供大家参考,具体内容如下 HTML代码: <table cellpadding="0" id="t ...

update效率-oracle update语句优化，听说执行要200多分钟

问题描述 oracle update语句优化,听说执行要200多分钟今天去帮人优化存储过程,其中有个过程里面有个update语句执行要很久很久.其中加粗where条件没看明白(开发的人也不在了),这 ...

长江商报：中国OPhone美国iPhone

中国移动推OMS操作系统手机,将内置移动数据业务苹果iPhone还是人们唯一的梦想吗? 不,因为OPhone来了. 近日,全球首款采用中国移动自主研发操作系统的OPhone手机--联想O1全面启动试 ...

求《struts 2.x权威指南(第3版)》，一书代码，谁可以分享一下？

问题描述求<struts2.x权威指南(第3版)>,一书代码,谁可以分享一下?邮箱:1310095226@qq.com

热搜

© 2024 iVAN | info#iamivan.net | 12 q. 0.023 s.