python - Python：哪个 XML 解析器支持 DTD !ENTITY 定义？

Question

我有下面的 XML 文件，目前我正在使用 minidom，我得到的示例' documentElements告诉我它忽略了定义，因此忽略了引用。tagNamexyz:widget!ENTITY!DOCTYPE

哪个 XML 解析器支持文档类型定义，以便不会忽略!ENTITY 定义和 !DOCTYPE 引用：

<?xml version="1.0" standalone="yes" ?>
<!DOCTYPE widget [
<!ENTITY widgets-ns "http://www.w3.org/ns/widgets">
<!ENTITY pass "pass&amp;.html">
]>
<xyz:widget xmlns:xyz="&widgets-ns;">
  <xyz:content src="&pass;"/>
  <xyz:name>bv</xyz:name>
</xyz:widget>

因此，对于上面的示例，您可以使用 python 获得XML等效项：

<widget xmlns="http://www.w3.org/ns/widgets">
  <content src="pass&amp;.html"/>
  <name>bv</name>
</widget>

或获得DOM具有 as a documentElementaswidget和childNodesas contentand属性 as with valuename等的awidgetxmlnshttp://www.w3.org/ns/widgets

我可能没有使用正确的术语，但我希望在上述示例的帮助下让自己清楚。

score 6 · Accepted Answer

LXML处理得很好：

>>> from lxml import etree
>>> s = """<?xml version="1.0" standalone="yes" ?>
... <!DOCTYPE widget [
... <!ENTITY widgets-ns "http://www.w3.org/ns/widgets">
... <!ENTITY pass "pass&amp;.html">
... ]>
... <xyz:widget xmlns:xyz="&widgets-ns;">
...   <xyz:content src="&pass;"/>
...   <xyz:name>bv</xyz:name>
... </xyz:widget>
... """
>>> etree.fromstring(s)
<Element {http://www.w3.org/ns/widgets}widget at 7f4de2cc58e8>
>>> etree.fromstring(s).xpath("//xyz:content/@src",
...                           namespaces={"xyz": "http://www.w3.org/ns/widgets"})
['pass&.html']

python - Python：哪个 XML 解析器支持 DTD !ENTITY 定义？

1 回答 1

Related

Reference