python - 如何更改打印的 xml 数据的编码并仍然剥离命名空间？

翻译自：https://stackoverflow.com/questions/36919281 2016-04-28T15:34:30.027

61 次

我需要从多个 xml 文件中检索大量信息。我正在尝试制作一个 webscraper，但我在编码时遇到了问题，同时仍然剥离了所有的命名空间（参见代码）。xml 文件的内容是用丹麦语编写的，并且包含特殊字符“æøå”。

如何在剥离命名空间的同时更改打印的 xml 数据的文件编码？

import urllib
from StringIO import StringIO
from xml.etree import ElementTree as ET
import re

url = "http://loremIpsum.co "
xmlString = urllib.urlopen(url).read() #data with namespaces

it = ET.iterparse(StringIO(xmlString))

for _, el in it:
    if '}' in el.tag:
        el.tag = el.tag.split('}', 1)[1]  # strip all namespaces
root = it.root


print root.findtext("loremIpsum/loremIpsum")

root.findtext("loremIpsum/loremIpsum")如果是特殊字符“ø”，则当前打印输出：

u'\xd8

预期输出：

ø

python - 如何更改打印的 xml 数据的编码并仍然剥离命名空间？

0 回答 0

Related

Reference