《Python Cookbook(第3版)中文版》——6.4 以增量方式解析大型XML文件

6.4 以增量方式解析大型XML文件

6.4.1 问题

我们需要从一个大型的XML文档中提取出数据,而且对内存的使用要尽可能少。

6.4.2 解决方案

任何时候,当要面对以增量方式处理数据的问题时,都应该考虑使用迭代器和生成器。下面是一个简单的函数,可用来以增量方式处理大型的XML文件,它只用到了很少量的内存:

from xml.etree.ElementTree import iterparse
def parse_and_remove(filename, path):
    path_parts = path.split('/')
    doc = iterparse(filename, ('start', 'end'))
    # Skip the root element
    next(doc)
    tag_stack = []
    elem_stack = []
    for event, elem in doc:
        if event == 'start':
            tag_stack.append(elem.tag)
            elem_stack.append(elem)
        elif event == 'end':
            if tag_stack == path_parts:
                yield elem
                elem_stack[-2].remove(elem)
            try:
                tag_stack.pop()
                elem_stack.pop()
            except IndexError:
                pass

要测试这个函数,只需要找一个大型的XML文件来配合测试即可。这种大型的XML文件常常可以在政府以及数据公开的网站上找到。比如,可以下载芝加哥的坑洞数据库XML。在写作本书时,这个下载文件中有超过100000行的数据,它们按照如下的方式编码:

<response>
  <row>
    <row ...>
      <creation_date>2012-11-18T00:00:00</creation_date>
      <status>Completed</status>
      <completion_date>2012-11-18T00:00:00</completion_date>
      <service_request_number>12-01906549</service_request_number>
      <type_of_service_request>Pot Hole in Street</type_of_service_request>
      <current_activity>Final Outcome</current_activity>
      <most_recent_action>CDOT Street Cut ... Outcome</most_recent_action>
      <street_address>4714 S TALMAN AVE</street_address>
      <zip>60632</zip>
      <x_coordinate>1159494.68618856</x_coordinate>
      <y_coordinate>1873313.83503384</y_coordinate>
      <ward>14</ward>
      <police_district>9</police_district>
      <community_area>58</community_area>
      <latitude>41.808090232127896</latitude>
      <longitude>-87.69053684711305</longitude>
      <location latitude="41.808090232127896"
                       longitude="-87.69053684711305" />
    </row>
    <row ...>
      <creation_date>2012-11-18T00:00:00</creation_date>
      <status>Completed</status>
      <completion_date>2012-11-18T00:00:00</completion_date>
      <service_request_number>12-01906695</service_request_number>
      <type_of_service_request>Pot Hole in Street</type_of_service_request>
      <current_activity>Final Outcome</current_activity>
      <most_recent_action>CDOT Street Cut ... Outcome</most_recent_action>
      <street_address>3510 W NORTH AVE</street_address>
      <zip>60647</zip>
      <x_coordinate>1152732.14127696</x_coordinate>
      <y_coordinate>1910409.38979075</y_coordinate>
      <ward>26</ward>
      <police_district>14</police_district>
      <community_area>23</community_area>
      <latitude>41.91002084292946</latitude>
      <longitude>-87.71435952353961</longitude>
      <location latitude="41.91002084292946"
                       longitude="-87.71435952353961" />
    </row>
  </row>
</response>

假设我们想编写一个脚本来根据坑洞的数量对邮政编码(ZIP code)进行排序。可以编写如下的代码来实现:

from xml.etree.ElementTree import parse
from collections import Counter
potholes_by_zip = Counter()
doc = parse('potholes.xml')
for pothole in doc.iterfind('row/row'):
    potholes_by_zip[pothole.findtext('zip')] += 1
for zipcode, num in potholes_by_zip.most_common():
    print(zipcode, num)

这个脚本存在的唯一问题就是它将整个XML文件都读取到内存中后再做解析。在我们的机器上,运行这个脚本需要占据450 MB内存。但是如果使用下面这份代码,程序只做了微小的修改:

from collections import Counter
potholes_by_zip = Counter()
data = parse_and_remove('potholes.xml', 'row/row')
for pothole in data:
    potholes_by_zip[pothole.findtext('zip')] += 1
for zipcode, num in potholes_by_zip.most_common():
    print(zipcode, num)

这个版本的代码运行起来只用了7 MB内存——多么惊人的提升啊!

6.4.3 讨论

本节中的示例依赖于ElementTree模块中的两个核心功能。首先,iterparse()方法允许我们对XML文档做增量式的处理。要使用它,只需提供文件名以及一个事件列表即可。事件列表由1个或多个start/end,start-ns/end-ns组成。iterparse()创建出的迭代器产生出形式为(event,elem)的元组,这里的event是列出的事件,而elem是对应的XML元素。示例如下:

>>> data = iterparse('potholes.xml',('start','end'))
>>> next(data)
('start', <Element 'response' at 0x100771d60>)
>>> next(data)
('start', <Element 'row' at 0x100771e68>)
>>> next(data)
('start', <Element 'row' at 0x100771fc8>)
>>> next(data)
('start', <Element 'creation_date' at 0x100771f18>)
>>> next(data)
('end', <Element 'creation_date' at 0x100771f18>)
>>> next(data)
('start', <Element 'status' at 0x1006a7f18>)
>>> next(data)
('end', <Element 'status' at 0x1006a7f18>)
>>>

当某个元素首次被创建但是还没有填入任何其他数据时(比如子元素),会产生start事件,而end事件会在元素已经完成时产生。尽管没有在本节示例中出现,start-ns和end-ns事件是用来处理XML命名空间声明的。

在这个示例中,start和end事件是用来管理元素和标签栈的。这里的栈代表着文档结构中被解析的当前层次(current hierarchical),同时也用来判断元素是否匹配传递给parse_and_remove()函数的请求路径。如果有匹配满足,就通过yield将其发送给调用者。

紧跟在yield之后的语句就是使得ElementTree能够高效利用内存的关键所在:

elem_stack[-2].remove(elem)

这一行代码使得之前通过yield产生出的元素从它们的父节点中移除。因此可假设其再也没有任何其他的引用存在,因此该元素被销毁进而可以回收它所占用的内存。

这种迭代式的解析以及对节点的移除使得对整个文档的增量式扫描变得非常高效。在任何时刻都能构造出一棵完整的文档树。然而,我们仍然可以编写代码以直接的方式来处理XML数据。

这种技术的主要缺点就是运行时的性能。当进行测试时,将整个文档先读入内存的版本运行起来大约比增量式处理的版本快2倍。但是在内存的使用上,先读入内存的版本占用的内存量是增量式处理的60倍多。因此,如果内存使用量是更加需要关注的因素,那么显然增量式处理的版本才是大赢家。

时间: 2024-11-09 00:17:40

《Python Cookbook(第3版)中文版》——6.4 以增量方式解析大型XML文件的相关文章

《Python 3程序开发指南(第2版•修订版)》——7.3 写入与分析XML文件

7.3 写入与分析XML文件 有些程序将其处理的所有数据都使用XML文件格式,还有些其他程序将XML用作一种便利的导入/导出格式.即便程序的主要格式是文本格式或二进制格式,导入与导出XML的能力也是有用的,并且始终是值得考虑的一项功能. Python提供了3种写入XML文件的方法:手动写入XML:创建元素树并使用其write()方法:创建DOM并使用其write()方法.XML文件的读入与分析则有4种方法:人工读入并分析XML(不建议采用这种方法,这里也没有进行讲述--正确处理某些更晦涩和更高级

创建Python数据分析的Docker镜像+Docker自定义镜像commit,Dockerfile方式解析+pull,push,rmi操作

实例解析Docker如何通过commit,Dockerfile两种方式自定义Dcoker镜像,对自定义镜像的pull,push,rmi等常用操作,通过实例创建一个Python数据分析开发环境的Docker镜像.1.通过commit操作在一个已有的镜像上做更改而保存为新的镜像.2.实例解析Dockerfile自定义镜像原理过程和命令规则.3.实例解析对自定义镜像做pull,push,rmi等常用操作. 0.0.查看本地已有的镜像 wxl@wxl-pc:~$ docker images 其实,本地已

《Python Cookbook(第3版)中文版》——导读

前 言 自2008年以来,我们已经目睹了整个Python世界正缓慢向着Python 3进化的事实.众所周知,完全接纳Python 3要花很长的时间.事实上,就在写作本书时(2013年),大多数Python程序员仍然坚持在生产环境中使用Python 2.关于Python 3不能向后兼容的事实也已经做了许多努力来补救.的确,向后兼容性对于任何已经存在的代码库来说是个问题.但是,如果你着眼于未来,你会发现Python 3带来的好处绝非那么简单. 正因为Python 3是着眼于未来的,本书在之前的版本上

Web版RSS阅读器(一)——dom4j读取xml(opml)文件

      接触java不久,偶有收获,最近想做一个web版RSS阅读器来锻炼一下.手头有几个从不同版本的foxmail中导出的opml文件,大家应该都知道,opml文件就是xml格式的.那么就先从这里入手,练习一下使用dom4j读取xml文件.       在java程序设计中,尤其是java web开发程序,xml应用频率超高.Spring.Hibernate.Struts等各种web 框架,MyEclipse.Oracle等IDE,也都主要依托xml.可以说xml对于系统的配置,有着至关重

《Python Cookbook(第3版)中文版》——第6章 数据编码与处理 6.1 读写CSV数据

第6章 数据编码与处理 本章主要关注的重点是利用Python来处理以各种常见编码形式所呈现出的数据,比如CSV文件.JSON.XML以及二进制形式的打包记录.与数据结构那章不同,本章不会把重点放在特定的算法之上,而是着重处理数据在程序中的输入和输出问题上. 6.1 读写CSV数据 6.1.1 问题 我们想要读写CSV文件中的数据. 6.1.2 解决方案 对于大部分类型的CSV数据,我们都可以用csv库来处理.比如,假设在名为stocks.csv的文件中包含有如下的股票市场数据: Symbol,P

谁有&amp;amp;lt;&amp;amp;lt;CLR Via C#&amp;amp;gt;&amp;amp;gt;第三版中文版的电子书

问题描述 谁有<<CLRViaC#>>第三版中文版的电子书,我是个初学者,看网上推荐此书的人多,想看一下,我的QQ:330784617.谢谢!! 解决方案 解决方案二:试一试我一般看英文的,虽然很少看书:(解决方案三: 解决方案四:第二版有的,想看第三版.

拒绝从入门到放弃_《Python 核心编程 (第二版)》必读目录

目录 目录 关于这本书 必看知识点 最后 关于这本书 <Python 核心编程 (第二版)>是一本 Python 编程的入门书,分为 Python 核心(其实并不核心,应该叫基础) 和 高级主题 两大部分,以 Python 2.x 作为主要演示版本,涵盖的知识面广,知识点较齐全,代码多且好理解,但对 Python 版本特性的内容太久远,不合时宜. 整体来说 Python 核心 部分是主要内容,高级主题 部分作为应用扩展内容.后半部分篇幅较短,内容不够深入,只到了解的层面,好在横向够广(每一个主

(六十二)第四章总结——《C++ Primer Plus 第6版 中文版》

书是<C++ Primer Plus  第6版  中文版> 数组.指针.结构 是C++的3种复合类型.   注:为了方便,类型名用int为主,变量名用a为主.   数组: 包括数组(例如int a[10];)和字符串(例如char a[10];),还有string类(例如string a="abc";),vector类(例如vector<int>a(5)).array类(array<int,3>a)等. 数组名表示数组所在的(第一个元素)内存地址.

求大神解答一下-C++ primer plus 第6版 中文版 第16章复习题的一个问题

问题描述 C++ primer plus 第6版 中文版 第16章复习题的一个问题 奇葩的是课后居然没答案...... 求正规.严谨.简洁的标准答案! 程序清单16.15(在p708页):functor.cpp //functor.cpp--using a functor #include尖括号iostream尖括号 #include尖括号list尖括号 #include尖括号iterator尖括号 #include尖括号algorithm尖括号 template//functor class