pyspider的使用

开始之前

由于教程是基于 pyspider 的,你可以安装一个 pyspider(Quickstart,也可以直接使用 pyspider 的 demo 环境:
http://demo.pyspider.org/

你还应该至少对万维网是什么有一个简单的认识:

  • 万维网是一个由许多互相链接的超文本页面(以下简称网页)组成的系统。
  • 网页使用网址(URL)定位,并链接彼此
  • 网页使用 HTTP 协议传输
  • 网页使用 HTML 描述外观和语义

所以,爬网页实际上就是:

  1. 找到包含我们需要的信息的网址(URL)列表
  2. 通过 HTTP 协议把页面下载回来
  3. 从页面的 HTML 中解析出需要的信息
  4. 找到更多这个的 URL,回到 2 继续

选取一个开始网址

既然我们要爬所有的电影,首先我们需要抓一个电影列表,一个好的列表应该:

  • 包含足够多的电影的 URL
  • 通过翻页,可以遍历到所有的电影
  • 一个按照更新时间排序的列表,可以更快抓到最新更新的电影

我们在 http://movie.douban.com/ 扫了一遍,发现并没有一个列表能包含所有电影,只能退而求其次,通过抓取分类下的所有的标签列表页,来遍历所有的电影:
http://movie.douban.com/tag/

创建一个项目

在 pyspider 的 dashboard 的右下角,点击 "Create" 按钮

替换 on_start 函数的 self.crawl 的 URL:

@every(minutes=24 * 60)
def on_start(self):
    self.crawl('http://movie.douban.com/tag/', callback=self.index_page)
  • self.crawl 告诉 pyspider 抓取指定页面,然后使用 callback 函数对结果进行解析。
  • @every 修饰器,表示 on_start 每天会执行一次,这样就能抓到最新的电影了。

点击绿色的 run 执行,你会看到 follows 上面有一个红色的 1,切换到 follows 面板,点击绿色的播放按钮:

Tag 列表页

tag 列表页 中,我们需要提取出所有的 电影列表页 的 URL。你可能已经发现了,sample handler 已经提取了非常多大的 URL,所有,一种可行的提取列表页 URL 的方法就是用正则从中过滤出来:

import re
...

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            if re.match("http://movie.douban.com/tag/\w+", each.attr.href, re.U):
                self.crawl(each.attr.href, callback=self.list_page)
  • 由于 电影列表页和 tag列表页长的并不一样,在这里新建了一个 callbackself.list_page
  • @config(age=10 * 24 * 60 * 60) 在这表示我们认为 10 天内页面有效,不会再次进行更新抓取

由于 pyspider 是纯 Python 环境,你可以使用 Python 强大的内置库,或者你熟悉的第三方库对页面进行解析。不过更推荐使用 CSS选择器。

电影列表页

再次点击 run 让我们进入一个电影列表页(list_page)。在这个页面中我们需要提取:

CSS选择器

CSS选择器,顾名思义,是 CSS 用来定位需要设置样式的元素 所使用的表达式。既然前端程序员都使用 CSS选择器 为页面上的不同元素设置样式,我们也可以通过它定位需要的元素。你可以在
CSS 选择器参考手册 这里学习更多的 CSS选择器 语法。

在 pyspider 中,内置了 response.docPyQuery 对象,让你可以使用类似 jQuery 的语法操作 DOM 元素。你可以在 PyQuery 的页面上找到完整的文档。

CSS Selector Helper

在 pyspider 中,还内置了一个 CSS Selector Helper,当你点击页面上的元素的时候,可以帮你生成它的 CSS选择器 表达式。你可以点击
Enable CSS selector helper 按钮,然后切换到 web 页面:

开启后,鼠标放在元素上,会被黄色高亮,点击后,所有拥有相同 CSS选择器 表达式的元素会被高亮。表达式会被插入到 python 代码当前光标位置。创建下面的代码,将光标停留在单引号中间:

def list_page(self, response):
    for each in response.doc('').items():

点击一个电影的链接,CSS选择器 表达式将会插入到你的代码中,如此重复,插入翻页的链接:

def list_page(self, response):
    for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV>TABLE TR.item>TD>DIV.pl2>A').items():
        self.crawl(each.attr.href, callback=self.detail_page)
    # 翻页
    for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.paginator>A').items():
        self.crawl(each.attr.href, callback=self.list_page)
  • 翻页是一个到自己的 callback 回调

电影详情页

再次点击 run,follow 到详情页。使用 css selector helper 分别添加电影标题,打分和导演:

def detail_page(self, response):
    return {
        "url": response.url,
        "title": response.doc('HTML>BODY>DIV#wrapper>DIV#content>H1>SPAN').text(),
        "rating": response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.indent.clearfix>DIV.subjectwrap.clearfix>DIV#interest_sectl>DIV.rating_wrap.clearbox>P.rating_self.clearfix>STRONG.ll.rating_num').text(),
        "导演": [x.text() for x in response.doc('a[rel="v:directedBy"]').items()],
    }

注意,你会发现 css selector helper 并不是总是能提取到合适的 CSS选择器 表达式。你可以在 Chrome Dev Tools 的帮助下,写一个合适的表达式:

右键点击需要提取的元素,点击审查元素。你并不需要像自动生成的表达式那样写出所有的祖先节点,只要写出那些能区分你不需要的元素的关键节点的属性就可以了。不过这需要抓取和网页前端的经验。所以,学习抓取的最好方法就是学会这个页面/网站是怎么写的。

你也可以在 Chrome Dev Tools 的 Javascript Console 中,使用 $$(a[rel="v:directedBy"]) 测试 CSS Selector。

开始抓取

  1. 使用 run 单步调试你的代码,对于用一个 callback 最好使用多个页面类型进行测试。然后保存。
  2. 回到 Dashboard,找到你的项目
  3. status 修改为 DEBUGRUNNING
  4. run 按钮

时间: 2024-10-25 06:01:14

pyspider的使用的相关文章

Python 爬虫程序 PySpider

问题描述 PySipder 是一个 Python 爬虫程序演示地址:**://demo.pyspider.org/使用 Python 编写脚本,提供强大的 APIPython 2&3强大的 WebUI 和脚本编辑器.任务监控和项目**和结果查看支持 JavaScript 页面后端系统支持:MySQL, MongoDB, SQLite, Postgresql支持任务优先级.重试.定期抓取等分布式架构示例代码:from pyspider.libs.base_handler import * cl**

pyspider爬虫教程(1):HTML和CSS选择

虽然以前写过 如何抓取WEB页面 和 如何从 WEB 页面中提取信息.但是感觉还是需要一篇 step by step 的教程,不然没有一个总体的认识.不过,没想到这个教程居然会变成一篇译文,在这个爬虫教程系列文章中,会以实际的例子,由浅入深讨论爬取(抓取和解析)的一些关键问题. 在 教程一 中,我们将要爬取的网站是豆瓣电影:http://movie.douban.com/ 你可以在: http://demo.pyspider.org/debug/tutorial_douban_movie 获得完

centos 下 pyspider 和 phantomjs 环境配置

1.下载解压phantomjs文件,并设置环境变量,  本人的phantomjs 是直接下载的phantomjs压缩文件,直接解压的,需要把它加入环境变量,不然pyspider 运行时找不到phantomjs (1)编辑 /etc/profile   在最后加入export PATH=${PATH}:/usr/local/soft_download/python_file/phantomjs/bin   (即phantomjs的解压后的bin目录,也就是执行文件所在的目录,注意,要把bin目录下

Python pyspider的安装与开发

PySpider 简介 PySpider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器.任务监视器,项目管理器以及结果查看器. PySpider 来源于以前做的一个垂直搜索引擎使用的爬虫后端.我们需要从200个站点(由于站点失效,不是都同时啦,同时有100+在跑吧)采集数据,并要求在5分钟内将对方网站的更新更新到库中.所以,灵活的抓取控制是必须的. 同时,由于100个站点,每天都可能会有站点失效或

pyspider爬虫教程 (2):AJAX和HTTP

在上一篇教程<pyspider 爬虫教程 (1):HTML 和 CSS 选择>中,我们使用 self.crawl API 抓取豆瓣电影的 HTML 内容,并使用 CSS 选择器解析了一些内容.不过,现在的网站通过使用 AJAX 等技术,在你与服务器交互的同时,不用重新加载整个页面.但是,这些交互手段,让抓取变得稍微难了一些:你会发现,这些网页在抓回来后,和浏览器中的并不相同.你需要的信息并不在返回 HTML 代码中. 在这一篇教程中,我们会讨论这些技术 和 抓取他们的方法. AJAX AJAX

Pyspider框架 —— Python爬虫实战之爬取 V2EX 网站帖子

背景: PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器.在线示例:http://demo.pyspider.org/ 官方文档: http://docs.pyspider.org/en/l... Github : https://github.com/binux/pysp... 本文爬虫代码 Github 地址:https://github.c

以Python的Pyspider为例剖析搜索引擎的网络爬虫实现方法_python

在这篇文章中,我们将分析一个网络爬虫. 网络爬虫是一个扫描网络内容并记录其有用信息的工具.它能打开一大堆网页,分析每个页面的内容以便寻找所有感兴趣的数据,并将这些数据存储在一个数据库中,然后对其他网页进行同样的操作. 如果爬虫正在分析的网页中有一些链接,那么爬虫将会根据这些链接分析更多的页面. 搜索引擎就是基于这样的原理实现的. 这篇文章中,我特别选了一个稳定的."年轻"的开源项目pyspider,它是由 binux 编码实现的. 注:据认为pyspider持续监控网络,它假定网页在一

PySpider python 爬虫

1,关于PySpider工具 http://www.oschina.net/p/pyspider 使用 Python 编写脚本,提供强大的 API Python 2&3 强大的 WebUI 和脚本编辑器.任务监控和项目管理和结果查看 支持 JavaScript 页面 后端系统支持:MySQL, MongoDB, SQLite, Postgresql 支持任务优先级.重试.定期抓取等 分布式架构 2,Mac下安装 sudo pip install pyspider #启动直接输入 pyspider

你想找的Python资料这里全都有!没有你找不到!史上最全资料合集

GitHub 上有一个 Awesome - XXX 系列的资源整理,资源非常丰富,涉及面非常广.awesome-python 是 vinta 发起维护的 Python 资源列表,内容包括:Web框架.网络爬虫.网络内容提取.模板引擎.数据库.数据可视化.图片处理.文本处理.自然语言处理.机器学习.日志.代码分析等.在给大家分享之前呢,小编推荐一下一个挺不错的交流宝地,里面都是一群热爱并在学习Python的小伙伴们,大几千了吧,各种各样的人群都有,特别喜欢看到这种大家一起交流解决难题的氛围,群资料