python - 在不使用 DOM 方法的情况下迭代解析大型 XML 文件

Question

我有一个xml文件

<temp>
  <email id="1" Body="abc"/>
  <email id="2" Body="fre"/>
  .
  .
  <email id="998349883487454359203" Body="hi"/>
</temp>

我想读取每个电子邮件标签的 xml 文件。也就是说，有一次我想读取电子邮件 id=1..从中提取正文，读取的电子邮件 id=2...并从中提取正文...等等

我尝试使用 DOM 模型进行 XML 解析，因为我的文件大小为 100 GB ..该方法不起作用。然后我尝试使用：

  from xml.etree import ElementTree as ET
  tree=ET.parse('myfile.xml')
  root=ET.parse('myfile.xml').getroot()
  for i in root.findall('email/'):
              print i.get('Body')

现在，一旦我获得了根..我不明白为什么我的代码无法解析。

使用 iterparse 时的代码抛出以下错误：

 "UnicodeEncodeError: 'ascii' codec can't encode character u'\u20ac' in position 437: ordinal not in range(128)"

有人可以帮忙吗

score 8 · Accepted Answer

iterparse 的一个例子：

import cStringIO
from xml.etree.ElementTree import iterparse

fakefile = cStringIO.StringIO("""<temp>
  <email id="1" Body="abc"/>
  <email id="2" Body="fre"/>
  <email id="998349883487454359203" Body="hi"/>
</temp>
""")
for _, elem in iterparse(fakefile):
    if elem.tag == 'email':
        print elem.attrib['id'], elem.attrib['Body']
    elem.clear()

只需将 fakefile 替换为您的真实文件即可。另请阅读此内容以获取更多详细信息。

python - 在不使用 DOM 方法的情况下迭代解析大型 XML 文件

1 回答 1

Related

Reference