-2

可能是一个愚蠢的问题,但由于某种原因 & 未被识别为 &。我从 API 获取文本并&打印为&而不是 &。我通过 UTF8 编码,但它没有捕捉到它

4

2 回答 2

4

&是 & 符号的 HTML 转义序列。它与字符编码无关。如果您在浏览器中打开要获取的页面(如果可能),您也会在源代码中看到它。

于 2012-10-18T15:58:45.160 回答
1

您可以尝试使用BeautifulSoup来翻译HTML 实体名称。

from BeautifulSoup import BeautifulStoneSoup
BeautifulStoneSoup("&",convertEntities=BeautifulStoneSoup.ALL_ENTITIES)
于 2012-10-18T16:10:56.170 回答