python-scrapy能够实现先登录再抓取吗

问题描述

scrapy能够实现先登录再抓取吗
想用python中的scrapy框架抓取网页,但是需要先登录才能显示抓取内容,登录即为一个post操作,但是scrapy中直接通过spider模块的start_url中的url在调度器中生成request,如果需添加post参数是在调试器里添加吗,另外在哪里可以打开并编辑调试器代码? 求用过scrapy的高手解答?_

解决方案

class LoginSpider(BaseSpider):    name = 'example.com'    start_urls = ['http://www.example.com/users/login.php']    def parse(self response):        return [FormRequest.from_response(response                    formdata={'username': 'john' 'password': 'secret'}                    callback=self.after_login)]    def after_login(self response):        # check login succeed before going on        if ""authentication failed"" in response.body:            self.log(""Login failed"" level=log.ERROR)            return        # continue scraping with authenticated session...                else:        return Request(url=""http://www.example.com/tastypage/""               callback=self.parse_tastypage)
时间: 2024-11-02 02:17:17

python-scrapy能够实现先登录再抓取吗的相关文章

python采用requests库模拟登录和抓取数据的简单示例_python

如果你还在为python的各种urllib和urlibs,cookielib 头疼,或者还还在为python模拟登录和抓取数据而抓狂,那么来看看我们推荐的requests,python采集数据模拟登录必备利器! 这也是python推荐的HTTP客户端库: 本文就以一个模拟登录的例子来加以说明,至于采集大家就请自行发挥吧. 代码很简单,主要是展现python的requests库的简单至极,代码如下: s = requests.session() data = {'user':'用户名','pass

【Python】实现从AWR 报表上抓取指定数据改进版

相对上一个脚本,该脚本修改了如下内容: 1 url的传入方式,只需将url保存到一个文本文件里,由程序自己读入并解析 2 增加了oracle 指标数据统计和分析,比较两周(我自己的需要)的数据变化趋势 #!/usr/bin/python# -*- coding: UTF-8 -*- #created by yangql  #date @2011-12-13 #function 获取AWR报表中的oracle数据库指标,分析并得出数据趋势 import sys import urllib impo

【Python】实现从AWR 报表上抓取指定数据

因为写关于数据库性能周报要查找和计算AWR报表上的一些关键指标的值,每次手工收集数据都花很长时间,写了一个python工具来获取自己想要的值,并做了计算!(现在看来还不太完善,以后会更贴近写周报的需求) import sys import urllib import HTMLParser import string sum_Logical=0 sum_Physical_reads=0 sum_Physical_writes=0 sum_Executes=0 sum_Transactions=0

PHP CURL模拟登录新浪微博抓取页面内容 基于EaglePHP框架开发_php技巧

复制代码 代码如下: /** * CURL请求 * @param String $url 请求地址 * @param Array $data 请求数据 */ function curlRequest($url,$data='',$cookieFile=''){ $ch = curl_init(); $option = array( CURLOPT_URL => $url, CURLOPT_HEADER =>0, CURLOPT_RETURNTRANSFER => 1, ); if($co

Python打印scrapy蜘蛛抓取树结构的方法_python

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法.分享给大家供大家参考.具体如下: 通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0): urls = allurls[referer] for url in urls

初学指南| 用Python进行网页抓取

引言 从网页中提取信息的需求日益剧增,其重要性也越来越明显.每隔几周,我自己就想要到网页上提取一些信息.比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引.我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标.这是一个问题或产品,其功效更多地取决于网页抓取和信息提取(数据集)的技术,而非以往我们使用的数据汇总技术. 网页信息提取的方式 从网页中提取信息有一些方法.使用API可能被认为是从网站提取信息的最佳方法.几乎所有的大型网站,像Twitter.

零基础写python爬虫之使用urllib2组件抓取网页内容_python

版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简

几种PHP实现网页抓取的程序代码

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单. 一.Ganon 项目地址: http://code.google.com/p/ganon/ 文档: http://code.google.com/p/ganon/w/list 测试:抓取我的网站首页所有class属性值是focus的div元素,并且输出class值 <?php include 'gan

详解python3百度指数抓取实例_python

百度指数抓取,再用图像识别得到指数 前言: 土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字: 哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福 安装的库很多: 谷歌图像识别tesseract-ocr pip3 install pillow pip3 install pyocr selenium2.45 Chrome47.0.2526.106 m or Firebox32.0.1 chromedriver.exe 图像识别验证码请参考:http://ww