python - urllib 编码问题

Question

我正在开发一个网络爬虫来自动下载巴西网站上的一些文档。它使用了一些未知的编码（在 head 标签中没有定义字符集）。

只需很少的努力，人们就可以阅读这些文件。但真正的问题是，列出文档的页面使用的链接带有包含重音字符的 url。但是，在不知道页面编码的情况下，当我从 urllib2.urlopen 检索它时，字符都乱了。

例如Í字符来作为Cyrillic capital letter E。

我正在使用 BeautifulSoup 并且 prettify 不起作用，因为 urllib2 已经返回带有坏字符的文档。

还有一件事：soup.originalEncoding返回None。

如何设置urllib2.urlopen以识别字符集或设置“预期编码”，以便返回在浏览器上显示的字符？

score 2 · Accepted Answer

可以从标题中检索字符集。我会给你我使用的代码，但它源自如何在 python 中下载任何（！）具有正确字符集的网页？. 而且，他在解释这个过程方面做得更好。所以，我只是指出你那里。

1 回答 1