7

我使用 BeautifulSoup 来处理通过 REST API 收集的 XML 文件。

响应包含 HTML 代码,但 BeautifulSoup 转义了所有 HTML 标记,因此可以很好地显示。

不幸的是,我需要 HTML 代码。


我将如何继续将转义的 HTML 转换为正确的标记?


非常感谢您的帮助!

4

2 回答 2

15

我认为您需要Python 标准库中的xml.sax.saxutils.unescape

例如:

>>> from xml.sax import saxutils as su
>>> s = '<foo>bar</foo>'
>>> su.unescape(s)
'<foo>bar</foo>'
于 2010-03-19T04:31:55.017 回答
2

你可以试试urllib模块吗?

它有一种unquote()可能适合您需求的方法。

编辑:再三考虑,(以及更多阅读您的问题)您可能只想使用string.replace()

像这样:

string.replace('&lt;','<')
string.replace('&gt;','>')
于 2010-03-19T04:33:33.127 回答