我在 Python 中使用 urllib 和 urllib2 来打开和阅读网页,但有时,我得到的文本是不可读的。例如,如果我运行这个:
import urllib
text = urllib.urlopen('http://tagger.steve.museum/steve/object/141913').read()
print text
我得到一些不可读的文本。我读过这些帖子:
python urllib2 会自动解压缩从网页获取的 gzip 数据吗?
但似乎找不到我的答案。
预先感谢您的帮助!
更新:我通过“说服”服务器我的用户代理是浏览器而不是爬虫来解决问题。
import urllib
class NewOpener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Ubuntu/11.10 Chromium/15.0.874.120 Chrome/15.0.874.120 Safari/535.2'
nop = NewOpener()
html_text = nop.open('http://tagger.steve.museum/steve/object/141913').read()
谢谢大家的回复。