python - 将html实体转换为文本

Question

我有我的 HTML 文件（这是一个正确的大引号），我想将它转换为文本（如果可能的话）。

我尝试使用 HTMLParser 和 BeautifulSoup 但没有成功。

>>> h = HTMLParser.HTMLParser()
>>> h.unescape("&#39;")
u"'"
>>> h.unescape("&#146;")
u'\x92' # I was hoping for a right curly quote here.

我的目标很简单：获取 html 输入并输出所有文本（没有任何 html 代码）。

score 2 · Accepted Answer

“右花引号”不是 ascii 字符。u'\x92'是代表它的unicode字符的python表示，而不是一些“html代码”。

要在您的终端中正确显示它，请使用print h.unescape("").encode('utf-8')（或您终端的字符集）。

1 回答 1