python - 非英文文本python不可读

Question

我正在编写爬虫并获取非英文网站的标题。当我在控制台中打印标题时，会变成这样：

à¦¶à§à¦°à§à¦²à¦à§à¦à¦¾à¦° à¦à¦¾à¦²à§ à¦¸à§à¦à¦¨à¦¾
à¦«à¦à¦¿à¦°à¦¾à¦ªà§à¦²à§ à¦¹à¦¾à¦¤à¦¬à§à¦®à¦¾ à¦¬à¦¿à¦¸à§à¦«à§à¦°à¦£, à¦à¦à¦ à§§à§¬
à¦¦à§à¦ à¦¬à¦¾à¦à¦²à¦¾à¦¦à§à¦¶à¦¿à¦à§ à¦¨à¦¿à§à§ à¦à§à¦à§ à¦¬à¦¿à¦à¦¸à¦à¦«
à¦à¦¾à¦®à¦¾à§à¦¾à¦¤ à¦¨à§à¦¤à¦¾ à¦¸à§à¦²à¦¿à¦®à¦¸à¦¹ à¦¦à§à¦à¦¨ à¦à§à¦°à§à¦ªà§à¦¤à¦¾à¦°

我不知道如何从上述字符串中获取正确的文本。

任何想法？

提前致谢。

score 5 · Accepted Answer

这看起来像是 UTF-8 编码的孟加拉语文本，其中散布着 HTML 字符引用，被错误地解释为 windows-1252 字符。也可能是其他任何事情，真的。

在抓取网页时，您应该大致按照浏览器和一般搜索引擎在决定字符编码时所做的事情。这远非微不足道。在 HTML5 RC 中，第 8.2.2.1 节确定字符编码是描述该过程的尝试。

python - 非英文文本python不可读

1 回答 1

Related

Reference