0

我有’我的 HTML 文件(这是一个正确的大引号),我想将它转换为文本(如果可能的话)。

我尝试使用 HTMLParser 和 BeautifulSoup 但没有成功。

>>> h = HTMLParser.HTMLParser()
>>> h.unescape("'")
u"'"
>>> h.unescape("’")
u'\x92' # I was hoping for a right curly quote here.

我的目标很简单:获取 html 输入并输出所有文本(没有任何 html 代码)。

4

1 回答 1

2

“右花引号”不是 ascii 字符。u'\x92'是代表它的unicode字符的python表示,而不是一些“html代码”。

要在您的终端中正确显示它,请使用print h.unescape("’").encode('utf-8')(或您终端的字符集)。

于 2012-05-06T19:23:22.937 回答