蟒蛇 2.7
我有一个程序可以从网页的源代码中获取视频标题,但标题是以某种 HTML 格式编码的。
这是我迄今为止尝试过的:
>>> import urllib2
>>> urllib2.unquote('£')
'£'
所以那没有用......然后我尝试了:
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape('£')
u'\xa3'
如您所见,这既不起作用,也不起作用两者的任何组合。
我设法找出这'£'
是一个 HTML 字符实体名称。'\xa3' 我没能找到。
有谁知道如何做到这一点,如何将 HTML 内容转换为 python 中的可读格式?