2

我最初的任务:使用Trello API,通过 HTTP GET 请求获取数据。如果可能,异步运行请求和处理响应。API 提供者使用我通过一些密钥和令牌访问的“https://”URL。

我使用的工具:

  • Python 2.7.10 | Anaconda 2.3.0(64 位)| (默认,2015 年 5 月 28 日,16:44:52)[MSC v.1500 64 位 (AMD64)] on win32
  • requests库(刚导入没有安装)
  • grequests库(通过 pip 从此git repo安装)

原始任务结果:只有requests库有效,我得到了 Trello API 的响应,太好了。grequests库因 status_code = 302 而失败。

我试图理解它为什么会发生并编写了两个可重现的脚本。

脚本 Arequests使用的库:

import requests

urls = [
    "https://www.google.com",
    "https://www.facebook.com/",
    "http://www.facebook.com/",
    "http://www.google.com",
    "http://fakedomain/",
    "http://python-tablib.org"
]

# Run requests:
for url in urls:
    print requests.get(url).status_code

控制台输出 A(由于 有一些异常http://fakedomain/):

200
200
200
200
Traceback (most recent call last):
  File "req.py", line 14, in <module>
    print requests.get(url).status_code
  File "D:\python\lib\site-packages\requests\api.py", line 69, in get
    return request('get', url, params=params, **kwargs)
  File "D:\python\lib\site-packages\requests\api.py", line 50, in request
    response = session.request(method=method, url=url, **kwargs)
  File "D:\python\lib\site-packages\requests\sessions.py", line 465, in request
    resp = self.send(prep, **send_kwargs)
  File "D:\python\lib\site-packages\requests\sessions.py", line 573, in send
    r = adapter.send(request, **kwargs)
  File "D:\python\lib\site-packages\requests\adapters.py", line 415, in send
    raise ConnectionError(err, request=request)
requests.exceptions.ConnectionError: ('Connection aborted.', gaierror(11001, 'getaddrinfo failed'))

脚本 Bgrequests用于map发送异步请求的库:

import grequests

# This function will execute set of instructions when responses come:
def proc_response(response, **kwargs):
    # do something ..
    print response

# Request exception handler:
def my_except_handler(request, excetion):
    print "Request failed : " + request.url

urls = [
    "https://www.google.com",
    "https://www.facebook.com/",
    "http://www.facebook.com/",
    "http://www.google.com",
    "http://fakedomain/",
    "http://python-tablib.org"
]
# Here is the list of tasks we build and run in parallel later:
actions_list = []

# Tasks list building:
for url in urls:
    action_item = grequests.get(url, hooks = {'response' : proc_response})
    actions_list.append(action_item)

# Run grequests:
print grequests.map(actions_list, exception_handler=my_except_handler)

控制台输出 B

<Response [302]>
<Response [302]>
<Response [200]>
<Response [301]>
<Response [302]>
<Response [200]>
Request failed : https://www.google.com
Request failed : https://www.facebook.com/
Request failed : http://www.facebook.com/
Request failed : http://fakedomain/
[None, None, None, <Response [200]>, None, <Response [200]>]

我可以根据这些信息得出的结论以及我相对较小的经验如下 - 由于某种原因grequests被远程网站拒绝,requests可以正常使用。只要 302 意味着某种重定向,似乎grequests无法从重定向到的源中获取数据何时requests可以。allow_redirects=True脚本 B中的 inget方法没有解决问题。

我想知道为什么图书馆会给出不同的回应。我可能会错过一些东西,这两个脚本必须根据设计返回不同的结果,而不是因为两个库之间的差异。

提前感谢您的帮助。

4

1 回答 1

4

grequests 对我很有效

这是我的脚本b.py,我通过以下方式运行$ py.test -sv b.py

import pytest
import grequests


@pytest.fixture
def urls():
    return [
        "https://www.google.com",
        "https://www.facebook.com/",
        "http://www.facebook.com/",
        "http://www.google.com",
        "http://fakedomain/",
        "http://python-tablib.org"
    ]


# This function will execute set of instructions when responses come:
def proc_response(response, **kwargs):
    # do something ..
    print "========Processing response=============", response.request.url
    print response
    if response.status_code != 200:
        print response.request.url
        print response.content


# Request exception handler:
def my_except_handler(request, exception):
    print "Request failed : " + request.url
    print request.response


def test_it(urls):
    # Here is the list of tasks we build and run in parallel later:
    actions_list = []

    # Tasks list building:
    for url in urls:
        action_item = grequests.get(url, hooks={'response': proc_response})
        actions_list.append(action_item)

    # Run grequests:
    print grequests.map(actions_list, exception_handler=my_except_handler)

它基于您的代码,只是为了方便我的实验而重写。

结果:最终结果为 200 或无

我的测试的最后打印输出显示:

[<Response [200]>, <Response [200]>, <Response [200]>, <Response [200]>, None, <Response [200]>]

这是预期的。

请注意,您在获取数据时可能会遇到一些临时问题,因为参与的玩家太多。

结论:不同的响应处理让你感到困惑

不同之处在于,您在部署钩子requests时要求最终结果,每个响应都会调用该钩子,包括重定向响应。grequestsprocess_response

处理也经过requests重定向,但不报告此临时响应。

于 2016-05-04T18:54:40.007 回答