python - ElementTree iterparse 需要多长时间？

Question

在回答另一个问题时，有人向我展示了以下教程，其中作者声称已使用 iterparse 在 3 秒内解析约 100 MB 的 XML 文件：

http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python-with-elementtree/

我正在尝试解析一个 ~90 MB XML 文件，并且我有以下代码：

from xml.etree.cElementTree import *
count = 0

for event, elem in iterparse('foo.xml'):        
    if elem.tag == 'identifier' and elem.text == 'bar':
        count += 1
    elem.clear() # discard the element

print count

这大约需要 30 秒……甚至与我使用类似大小的文件、类似的算法和相同的包阅读的教程中报告的数量级不同。

有人可以告诉我我的代码可能有什么问题，或者我的情况和本教程之间可能没有注意到哪些差异？

我正在使用 Python 2.7.3。

附录：

我也在使用一台相当强大的机器，以防有人认为可能是它。

score 4 · Accepted Answer

正如 TJD 所提到的，仅比较 XML 的大小可能不会提供很多信息。但是，我碰巧有相同结构但大小不同的文件：

使用 79M 文件：

$ python -m timeit -n 1 -c 'from xml.etree.cElementTree import iterparse
count = 0
for event, elem in iterparse("..../QT20060217_S_18mix23-2500_01.mzML"):
    if elem.tag.endswith("spectrum"): count += 1
    elem.clear()
print count'
6126
6126
6126
1 loops, best of 3: 950 msec per loop

使用 3.8G 文件，timeit输出为：

1 loops, best of 3: 22.3 sec per loop

此外，与lxml:xml.etree.cElementTree在第一行更改为lxml.etree我得到：

对于第一个文件：730 msec per loop

对于第二个文件：11.4 sec per loop

python - ElementTree iterparse 需要多长时间？

1 回答 1

Related

Reference