我想将 HTML 实体转换回其人类可读的格式,例如'£'
转换为“£”、'°'
转换为“°”等。
我已经阅读了几篇关于这个问题的帖子
使用 Python 2.x 将 html 源内容转换为可读格式
在 Python 中将 XML/HTML 实体转换为 Unicode 字符串
根据他们的说法,我选择使用未记录的函数 unescape(),但它对我不起作用......
我的代码示例如下:
import HTMLParser
htmlParser = HTMLParser.HTMLParser()
decoded = htmlParser.unescape('© 2013')
print decoded
当我运行这个 python 脚本时,输出仍然是:
© 2013
代替
© 2013
我正在使用 Python 2.X,在 Windows 7 和 Cygwin 控制台上工作。我用谷歌搜索并没有发现任何类似的问题..有人可以帮我解决这个问题吗?