0

我正在编写一个程序,我需要像在计算机上那样从一页转到另一页。

在 urllib 上,我转到一个页面并从该页面源获取一个 url,然后我获取该 url,然后转到该页面,但是我从该站点收到一个错误,说我来自错误的页面,因为 urllib 没有从一个开始页面并转到另一个它会打开一个新页面。. 这是一些示例代码:

tree = self.opener.open('http://www.example.com').read()
#Beautiful soup parsing to get the new _url
new_page = self.opener.open('http://www.example/new_url.com').read()
print new_page #Output is error page

我怎样才能写出来,让网站认为我来自上一页?

谢谢你

4

1 回答 1

0

如果您尝试访问的站点具有这种敏感性,那么仅使用“urllib2”进入它会遇到很多麻烦——因为它只是提供了对 http 的非常低级别的访问——你需要在您的程序中模拟表明您来自哪里的 HTTP 标头,并重放您在第一次访问时可能获得的任何 cookie。

有 3rd 方 Python 模块可以使这些任务变得更加容易,我建议您改为起诉“请求”库 - 或至少“机械化”。有可能甚至不使用这些,您所要求的默认情况下已实现 - 但请按照文档和您选择的项目的示例进行操作,它应该更简单。

于 2013-07-29T14:58:54.220 回答