3

我有一个非常大 (7GB) 的 MediaWiki XML 转储,其中包含对 Wiki 的每个页面所做的每次更改的记录。我正在尝试记录哪些用户对每个页面做出了贡献,因此我想从 XML 中提取它。

XML 看起来像:

<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.3/">
 <page>
  <title>Unique Page title</title>
  <id>11</id>
  <restrictions>sysop</restrictions>
  <revision>
    <id>11</id>
    <timestamp>2005-10-26T02:23:03Z</timestamp>
    <contributor>
      <ip>MediaWiki default</ip>
    </contributor>
    <text xml:space="preserve">i</text>
  </revision>
 </page>
 <page> ... </page>
 <page> ... </page>
 ...
</mediawiki>

对于这种大小的文件,我相信我需要使用 iterparse。现在,我只是想打印出标题,但是当我运行以下代码时,它会打印“无”。

NS = '{http://www.mediawiki.org/xml/export-0.3/}'
from xml.etree.ElementTree import iterparse
with open('XMLFile.xml') as f:
    for event, elem in iterparse(f):
        if elem.tag == NS + 'page':
            for node in elem:
                if node.tag == NS + 'title':
                    print node.text()
        elem.clear()
4

3 回答 3

3

尝试在迭代解析期间直接拉出“标题”元素,而不是进行二次循环:

NS = '{http://www.mediawiki.org/xml/export-0.3/}'
from xml.etree.ElementTree import iterparse
with open('XMLFile.xml') as f:
    for event, elem in iterparse(f):
            if elem.tag == NS + 'title':
                print elem.text
            elem.clear()

似乎对我有用。

于 2012-12-31T20:30:40.227 回答
1

None在打印title元素的文本内容时会得到,因为您使用elem.clear()“太早”。默认情况下,iterparse()只生成“结束”事件。当page发出“结束”事件时,它的所有子元素,包括title,都已被清除(清空)。

如果elem.clear()在问题的代码中仅向右移动一个缩进级别(四个空格),它将按预期工作。使您的代码工作的另一种方法是更改iterparse(f)​​为iterparse(f, events=["start"]).

并且node.text()应该是node.text

有关. _ _iterparse()


假设 XML 转储 (mw.xml) 如下所示:

<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.3/">
  <page>
    <title>Unique Page title 1</title>
    <id>11</id>
    <restrictions>sysop</restrictions>
    <revision>
      <id>11</id>
      <timestamp>2005-10-26T02:23:03Z</timestamp>
      <contributor>
       <username>Alice</username>
      </contributor>
      <text xml:space="preserve">i</text>
    </revision>
  </page>

  <page>
    <title>Unique Page title 2</title>
    <id>11</id>
    <restrictions>sysop</restrictions>
    <revision>
      <id>11</id>
      <timestamp>2005-10-26T02:23:03Z</timestamp>
      <contributor>
       <username>Bob</username>
      </contributor>
      <text xml:space="preserve">j</text>
    </revision>
  </page>
</mediawiki>

以下是关于如何获得标题和贡献者的建议:

from xml.etree.ElementTree import iterparse

NS = '{http://www.mediawiki.org/xml/export-0.3/}'

with open('mw.xml') as f:
    for event, elem in iterparse(f):
        if elem.tag == '{0}page'.format(NS):
            title = elem.find("{0}title".format(NS))
            contr = elem.find(".//{0}username".format(NS))

            if title is not None:
                print title.text
            if contr is not None:
                print contr.text

            elem.clear()

输出:

Unique Page title 1 
Alice
Unique Page title 2 
Bob

我假设您想要贡献者的用户名。根据最新的XML Schemacontributor可以包含usernameip和/或id子元素(对于 0.3 版本的模式也是如此)。

于 2013-01-02T19:48:18.490 回答
1

我没有使用 Python 和 iterparse 的经验,但通常,使用迭代 XML 解析器执行此操作的方式如下:

  • 在解析循环之外,设置变量来存储当前页面标题和贡献者列表。
  • 在循环内部,每当page打开标签时,都会重置变量。
  • 当您遇到title标签时,将页面标题变量设置为其内容。
  • 当您遇到contributor标签时,将其内容添加到贡献者列表中。
  • page标签关闭时,输出收集到的标题和贡献者列表。
于 2013-01-01T19:06:01.030 回答