14

我有一个这样的html文本:

<xml ... >

我想把它转换成可读的东西:

<xml ...>

在 Python 中有什么简单(快速)的方法吗?

4

3 回答 3

25

蟒蛇> = 3.4

官方文档HTMLParserPython 3

>>> from html import unescape
>>> unescape('&copy; &euro;')
© €

蟒蛇 < 3.5

官方文档HTMLParserPython 3

>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('&copy; &euro;')
© €

注意:这已被弃用,有利于html.unescape().

蟒蛇 2.7

官方文档HTMLParserPython 2.7

>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('&copy; &euro;')
u'\xa9 \u20ac'
>>> print _
© €
于 2009-04-08T14:36:29.350 回答
2

现代 Python 3 方法:

>>> import html
>>> html.unescape('&copy; &euro;')
© €

https://docs.python.org/3/library/html.html

于 2019-11-06T16:44:44.170 回答
1

正如 Fred 指出的帖子所链接的那样,这里有一个功能可以做到这一点。复制到这里是为了让事情变得更容易。

感谢 Fred Larson 链接到关于 SO 的另一个问题。感谢 dF 发布链接。

于 2009-04-08T18:09:06.250 回答