4

我想我在使用 HTTPS 时发现了 Requests 库处理重定向的问题。据我所知,这只是服务器将 Requests 客户端重定向到另一个 HTTPS 资源时的问题。

我可以向您保证,我使用的代理支持 HTTPS 和 CONNECT 方法,因为我可以在浏览器中使用它。我正在使用 2.1.0 版的 Requests 库,它正在使用 1.7.1 版的 urllib3 库。

我在 wireshark 中查看了交易,我可以看到 https://www.paypal.com/ 的第一笔交易,我没有看到https://www.paypal.com/home的任何内容。使用调试器在堆栈中进行更深入的调试时,我不断收到超时,所以我不知道从哪里开始。由于重定向,我绝对没有看到对 /home 的请求。因此,在将其发送到代理之前,它必须在代码中出错。

我想知道这是否真的是一个错误或者我做错了什么。只要您可以访问可以发送流量的代理,就很容易复制。请看下面的代码:

import requests

proxiesDict = {
    'http': "http://127.0.0.1:8080",
    'https': "http://127.0.0.1:8080"
}

# This fails with "requests.exceptions.ProxyError: Cannot connect to proxy. Socket error: [Errno 111] Connection refused." when it tries to follow the redirect to /home
r = requests.get("https://www.paypal.com/", proxies=proxiesDict)
# This succeeds.
r = requests.get("https://www.paypal.com/home", proxies=proxiesDict)

直接使用 urllib3 时也会发生这种情况。它可能主要是 urllib3 中的一个错误,Requests 在后台使用它,但我使用的是更高级别的请求库。见下文:

proxy = urllib3.proxy_from_url('http://127.0.0.1:8080/')

# This fails with the same error as above.
res = proxy.urlopen('GET', https://www.paypal.com/)
# This succeeds
res = proxy.urlopen('GET', https://www.paypal.com/home)

这是使用请求时的回溯:

Traceback (most recent call last):
  File "tests/downloader_tests.py", line 22, in test_proxy_https_request
    r = requests.get("https://www.paypal.com/", proxies=proxiesDict)
  File "/usr/local/lib/python2.7/dist-packages/requests/api.py", line 55, in get
    return request('get', url, **kwargs)
  File "/usr/local/lib/python2.7/dist-packages/requests/api.py", line 44, in request
    return session.request(method=method, url=url, **kwargs)
  File "/usr/local/lib/python2.7/dist-packages/requests/sessions.py", line 382, in request
    resp = self.send(prep, **send_kwargs)
  File "/usr/local/lib/python2.7/dist-packages/requests/sessions.py", line 505, in send
    history = [resp for resp in gen] if allow_redirects else []
  File "/usr/local/lib/python2.7/dist-packages/requests/sessions.py", line 167, in resolve_redirects
    allow_redirects=False,
  File "/usr/local/lib/python2.7/dist-packages/requests/sessions.py", line 485, in send
    r = adapter.send(request, **kwargs)
  File "/usr/local/lib/python2.7/dist-packages/requests/adapters.py", line 375, in send
    raise ProxyError(e)
requests.exceptions.ProxyError: Cannot connect to proxy. Socket error: [Errno 111] Connection refused.

更新:

问题似乎只发生在 302(找到)重定向​​而不是正常的 301 重定向(永久移动)。另外,我注意到使用 Chrome 浏览器时,Paypal 不会返回重定向。使用请求时,我确实看到了重定向——即使我为此实验借用了 Chrome 的用户代理。我正在寻找更多返回 302 的 URL,以获取更多数据点。

我需要它适用于所有 URL,或者至少了解我为什么会看到这种行为。

4

1 回答 1

2

这是 urllib3 中的一个错误。我们将其作为urllib3 问题 #295进行跟踪。

于 2013-12-07T09:42:29.370 回答