可爱的Python:使用mechanize和Beautiful Soup轻松收集Web数据

使用基本的 Python 模块,可以编写脚本来与 Web 站点交互,但是如果没有必要的话,那么您就不希望这样做。Python 2.x 中的模块 urllib 和 urllib2,以及 Python 3.0 中的统一的 urllib.* 子包,可以在 URL 的末尾获取资源。然而,当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize 库。

在自动化 Web scrap 或用户与 Web 站点的交互模拟中,最大的困难之一就是服务器使用 cookies 跟踪会话进度。显然,cookies 是 HTTP 头部的一部分,在 urllib 打开资源时会自然显示出来。而且,标准模块 Cookie(Python 3 中的 http.cookie)和 cookielib(Python 3 中的 http.cookiejar)有助于在比原始的文本处理更高的层次上处理这些头部。即使如此,在这个层次上执行处理也非常的繁琐。mechanize 库将这种处理提升到一个更高程度的抽象并使您的脚本 — 或交互性 Python shell — 表现出非常类似实际 Web 浏览器的行为。

Python的mechanize 受到Perl的WWW:Mechanize 的启发,后者具有类似的一组功能。当然,作为长期的 Python 支持者,我认为 mechanize 更健壮,它看上去似乎继承了两种语言的通用模式。

mechanize 的一个亲密伙伴是同样出色的 Beautiful Soup 库。这是一个非常神奇的 “粗糙的解析器”,用于解析实际 Web 页面中包含的有效 HTML。您不需要 将 Beautiful Soup 用于 mechanize,反之亦然,但是多半情况下,当您与 “实际存在的 Web” 交互时,您将希望同时使用这两种工具。

一个实际示例

我曾在多个编程项目中使用过 mechanize。最近一个项目是从一个流行的 Web 站点中收集匹配某种条件的名称的列表。该站点提供了一些搜索工具,但是没有提供任何正式的 API 来执行此类搜索。虽然访问者可能能够更明确地猜出我过去在做什么,但我将修改给出的代码的细节,以避免暴露有关被 scrap 的站点或我的客户机的过多信息。一般情况下,我给出的代码对于类似任务是通用的。

入门工具

在实际开发Web scrap/分析代码的过程中,我发现以交互式方式查看、处理和分析 Web 页面的内容以了解相关 Web 页面实际发生的操作是非常重要的功能。通常,站点中的一些页面是由查询动态生成(但是具有一致的模式),或是根据非常严格的模板预先生成。

完成这种交互式体验的一种重要方法就是在 Python shell 内使用 mechanize 本身,特别是在一个增强的 shell 内,比如 IPython。通过这种方式,您可以在编写执行希望用于生产中的交互的最终脚本之前,请求各种已链接的资源、提交表单、维护或操作站点 cookies,等等。

然而,我发现我与 Web 站点的许多实验性质的交互在实际的现代 Web 浏览器中得到了更好的执行。方便地呈现页面可以使您更加快速地了解给定页面或表单中正在发生的事情。问题在于,呈现页面仅仅完成了事情的一半,可能还不到一半。获得 “页面源代码” 会让您更进一步。要真正理解给定 Web 页面或与 Web 服务器的一系列交互的背后的原理,需要了解更多。

要了解这些内容,我常常使用 Firebug或面向 Firefox的Web Developer 插件(或最新 Safari 版本中的内置的可选 Develop 菜单,但是所针对的目标人群不同)。所有这些工具都可以执行诸如显示表单字段、显示密码、检查页面的 DOM、查看或运行 Javascript、观察 Ajax 通信等操作。比较这些工具的优劣需要另外撰写一篇文章,但是如果您要进行面向 Web 的编程的话,那么必须熟悉这些工具。

不管使用哪一种工具来对准备实现自动化交互的 Web 站点做实验,您都需要花比编写简洁的 mechanize 代码(用于执行您的任务)更多的时间来了解站点实际发生的行为。

搜索结果 scraper

考虑到上面提到的项目的意图,我将把包含 100 行代码的脚本分为两个功能:

时间: 2024-11-08 18:54:57

可爱的Python:使用mechanize和Beautiful Soup轻松收集Web数据的相关文章

Python网络爬虫 - 2. Beautiful Soup小试牛刀

目标: 我们解析百度首页的logo bs_baidu_logo.py from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.baidu.com") bsObj = BeautifulSoup(html.read(), "html.parser") print(bsObj.img)   运行结果: <img height="

[Python]HTML/XML解析器Beautiful Soup

[简介] Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.即HTML/XMLX的解析器. 它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作.它可以大大节省你的编程时间. [安装] 下载地址:点击打开链接 Linux平台安装: 如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装: $ apt-get install Python-bs4 B

python beautiful soup库的用法

参考:http://cuiqingcai.com/1319.html Beautiful Soup 4.2.0 文档 1. Beautiful Soup 简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序.Beautiful

Python爬虫利器二之Beautiful Soup的用法

上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧. 1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官

可爱的Python:Decorator简化元编程

Python 使元编程成为可能,不过每个版本的 Python 都有一些细微的区别(并且不是完全兼容),这使我们实现元编程的道路变得更加崎岖.一类函数对象的使用由来已久,同样还有一些技术用于探索和实现魔术般的属性.在版本 2.2 中,Python 增加了一种很有帮助的定制元类机制,但是其代价就是令用户绞尽脑汁.最近,在 2.4 版本中,Python 增加了 "decorator" ,这是适于执行大部分元编程的最新方式 -- 也是到目前为止对用户最友好的方式. 少劳多得 Decorator

可爱的Python: 用基于生成器的状态机和协同程序增加效率

Python 2.2 中引进的简单生成器可用于简化状态机以及模仿协同程序.David 在"可爱的 Python"专栏较早前的一个部分中介绍了一个 状态机处理的抽象模式.从那时起,简单生成器的引进就为描述机器提供了一些更自然的范例.协同程序是一种"外来"流机制,广泛使用的语言几乎都不支持这种机制(甚至连非 Stackless Python 都不支持它).然而,Python 的新生成器 几乎完全支持协同程序,几乎不用模仿任何额外的步骤.在本文中,David 通过说明性代

可爱的Python: 用Python生成器实现“轻便线程”

在 "可爱的 Python"的前面一部分中,David 介绍了一种用生成器和简单的调度程序模拟完整协同程序的方法.我们也许可以用直观的方式来扩展这种调度程序,使其允许对多进程使用极为轻量级的线程.与 Stackless Python 微线程非常相似,伪协同程序"轻便线程"几乎不需要 OS(甚至用户区)线程的上下文切换和内存开销.David 在这里介绍了轻便线程,一种巧妙的解决方案,它用来解决使用普通解决方案处理将涉及大量协同进程的问题. 微线程领域(至少在 Pyth

可爱的Python: 使用Spark模块解析

Spark 是一种用 Python 编写的强大的.通用的解析器/编译器框架.在某些方面,Spark 所提供的比 SimpleParse 或其它 Python 解析器提供的都要多.然而,因为它完全是用 Python 编写的,所以速度也会比较慢.David 在本文中讨论了 Spark 模块,给出了一些代码样本,解释了它的用途,并对其应用领域提供了一些建议. 继"可爱的 Python"系列中专门讲述 SimpleParse 的 前一篇文章之后,我将在本文中继续介绍一些解析的基本概念,并对 S

可爱的Python:将XML和Python结合起来

开始在 Python 中使用 XML 的一个主要要素是排列出所有可用模块的可比性能力.在他的新 Python 专栏"可爱的 Python"的第一部分中,David Mertz 简要描述了最流行和实用的关于 XML 的 Python 模块,并指出可以下载的单独模块以及可供阅读的参考资料.本文有助于确定哪些模块最适合特定任务. 在许多情况下,Python 是使用 XML 文档的理想语言.像 Perl.REBOL.REXX 和 TCL 一样,它是一种灵活的脚本语言,并且有强大的文本操作能力.