python-3.x - BeautifulSoup 4 是否解析外部 DTD 实体？

Question

我有一个 TEI 文档，其中包含编码为&stern_1;映射在单独Zeichen.dtd（文档类型定义）文件中的字符。该文件Zeichen.dtd包含以下内容：

<?xml version="1.0" encoding="UTF-8"?>
<!ENTITY stern_1 "&#10035;" >

我正在使用BeautifulSoup4和lxml-xml作为解析器。

例子：

dtd_str = '<!DOCTYPE Zeichen SYSTEM "Zeichen.dtd">'
xml_str = "<p>Hello, &stern_1;!</p>"
from bs4 import BeautifulSoup
soup = BeautifulSoup(dtd_str+xml_str, 'lxml-xml')
print(soup.find('p').get_text())

上面的代码打印了这个：

 Hello, !

而不是这个：

 Hello, ✳!

我还尝试了内联 DTD，结果相同：

dtd_str = """
<!DOCTYPE html [
    <!ENTITY stern_1 "&#10035;">
]>
"""
xml_str = "<p>Hello, &stern_1;!</p>"

from bs4 import BeautifulSoup
soup = BeautifulSoup(xml_str, 'lxml-xml')
print(soup.find('p').get_text())

输出：

Hello, !

有任何想法吗？

score 0 · Accepted Answer

终于找到了解决我自己问题的有效方法：

dtd_str = """
<!DOCTYPE html [
    <!ENTITY stern_1 "&#10035;">
]>
"""
xml_str = "<p>Hello, &stern_1;!</p>"
from lxml import etree
tree = etree.fromstring(dtd_str + xml_str)

from bs4 import BeautifulSoup
soup = BeautifulSoup(etree.tostring(tree, encoding='unicode'), "lxml-xml")
print(soup.find('p').get_text())

将打印：

Hello, ✳!

这正是我想要的。lxml 库可以正确处理 dtd 文件，而当您需要遍历树时，BeautifulSoup 具有更好、更直观的 API。

python-3.x - BeautifulSoup 4 是否解析外部 DTD 实体？

1 回答 1

Related

Reference