1

我正在开发一个网络爬虫来自动下载巴西网站上的一些文档。它使用了一些未知的编码(在 head 标签中没有定义字符集)。

只需很少的努力,人们就可以阅读这些文件。但真正的问题是,列出文档的页面使用的链接带有包含重音字符的 url。但是,在不知道页面编码的情况下,当我从 urllib2.urlopen 检索它时,字符都乱了。

例如Í字符来作为Cyrillic capital letter E

我正在使用 BeautifulSoup 并且 prettify 不起作用,因为 urllib2 已经返回带有坏字符的文档。

还有一件事:soup.originalEncoding返回None

如何设置urllib2.urlopen以识别字符集或设置“预期编码”,以便返回在浏览器上显示的字符?

4

1 回答 1

2

可以从标题中检索字符集。我会给你我使用的代码,但它源自如何在 python 中下载任何(!)具有正确字符集的网页?. 而且,他在解释这个过程方面做得更好。所以,我只是指出你那里。

于 2012-08-16T13:26:09.340 回答