我正在开发一个网络爬虫来自动下载巴西网站上的一些文档。它使用了一些未知的编码(在 head 标签中没有定义字符集)。
只需很少的努力,人们就可以阅读这些文件。但真正的问题是,列出文档的页面使用的链接带有包含重音字符的 url。但是,在不知道页面编码的情况下,当我从 urllib2.urlopen 检索它时,字符都乱了。
例如Í
字符来作为Cyrillic capital letter E
。
我正在使用 BeautifulSoup 并且 prettify 不起作用,因为 urllib2 已经返回带有坏字符的文档。
还有一件事:soup.originalEncoding
返回None
。
如何设置urllib2.urlopen
以识别字符集或设置“预期编码”,以便返回在浏览器上显示的字符?