python - 带有 : 在 lxml 中的名称的标签

Question

我正在尝试使用 lxml.etree 来解析 Wordpress 导出文档（它是 XML，有点像 RSS）。我只对已发布的帖子感兴趣，因此我使用以下内容循环浏览已发布的帖子：

for item in data.findall("item"):
    if item.find("wp:post_type").text != "post":
        continue
    if item.find("wp:status").text != "publish":
        continue
    write_post(item)

data找到所有标签的标签在哪里item。item标签包含帖子、页面和草稿。我的问题是 lxml 找不到:名称中有 a 的标签（例如wp:post_type）。当我尝试时，item.find("wp:post_type")我收到此错误：

Traceback (most recent call last):
  File "<input>", line 1, in <module>
  File "lxml.etree.pyx", line 1279, in lxml.etree._Element.find (src/lxml/lxml.e
tree.c:38124)
  File "/usr/lib64/python2.7/site-packages/lxml/_elementpath.py", line 210, in f
ind
    it = iterfind(elem, path)
  File "/usr/lib64/python2.7/site-packages/lxml/_elementpath.py", line 200, in i
terfind
    selector = _build_path_iterator(path)
  File "/usr/lib64/python2.7/site-packages/lxml/_elementpath.py", line 184, in _
build_path_iterator
    selector.append(ops[token[0]](_next, token))
KeyError: ':'

我假设KeyError : ':'标签名称中的冒号是无效的。有什么方法可以转义冒号，以便 lxml 找到正确的标签？:在这种情况下有什么特殊含义吗？还是我做错了什么？任何帮助，将不胜感激。

score 9 · Accepted Answer

是:一个 XML 命名空间分隔符。要在 lxml 中转义冒号，您需要将其替换为大括号内的命名空间 URL，如item.find("{http://example.org/}status").text.

python - 带有 : 在 lxml 中的名称的标签

1 回答 1

Related

Reference