2
self.agent = Agent(reactor, pool=pool)
self.deferred = self.agent.request(
            'GET',
            self.url,
            Headers({'User-Agent': ['Mozilla/5.0']})
        )

self.deferred.addCallback(self.gotResponse)

但是 gotResponse 调用接收到的数据的每一部分,而不是全部。我可以收集它,但如何知道我得到了所有数据?

编辑:

我发现了这一点(来自“如果已完全收到响应正文”的话),但仍然不知道如何实现这一点。我的意思是,“失败将结束……”是什么意思?

4

3 回答 3

3

在 twisted 13.1.0 中,您可以使用 readBody()。来自 http://twistedmatrix.com/documents/13.1.0/api/twisted.web.client.readBody.html,“这是一个帮助函数,用于不希望增量接收 HTTP 响应正文的客户端。 "

您从回调中调用 readBody(),在上面的示例中为 dataReceived(),它处理数据,readBody() 返回一个延迟,您将另一个回调附加到该回调,该回调将整个主体作为参数。

HTH,雷沙德。

于 2013-10-25T14:36:29.590 回答
2

扭曲的文档提供了如何执行此操作的示例。

来自http://twistedmatrix.com/documents/current/web/howto/client.html

from pprint import pformat

from twisted.internet import reactor
from twisted.internet.defer import Deferred
from twisted.internet.protocol import Protocol
from twisted.web.client import Agent
from twisted.web.http_headers import Headers

class BeginningPrinter(Protocol):
    def __init__(self, finished):
        self.finished = finished
        self.remaining = 1024 * 10

    def dataReceived(self, bytes):
        if self.remaining:
            display = bytes[:self.remaining]
            print 'Some data received:'
            print display
            self.remaining -= len(display)

    def connectionLost(self, reason):
        print 'Finished receiving body:', reason.getErrorMessage()
        self.finished.callback(None)

agent = Agent(reactor)
d = agent.request(
    'GET',
    'http://example.com/',
    Headers({'User-Agent': ['Twisted Web Client Example']}),
    None)

def cbRequest(response):
    print 'Response version:', response.version
    print 'Response code:', response.code
    print 'Response phrase:', response.phrase
    print 'Response headers:'
    print pformat(list(response.headers.getAllRawHeaders()))
    finished = Deferred()
    response.deliverBody(BeginningPrinter(finished))
    return finished
d.addCallback(cbRequest)

def cbShutdown(ignored):
    reactor.stop()
d.addBoth(cbShutdown)

reactor.run()

当请求完成时将调用BeginningPrinter 的connectionLost() 方法。

Response version: ('HTTP', 1, 0)
Response code: 302
Response phrase: Found
Response headers:
[('Location', ['http://www.iana.org/domains/example/']), ('Server', ['BigIP'])]
Finished receiving body: Response body fully received

看起来检查if reason.check(twisted.web.client.ResponseDone)会告诉你它是否成功。

于 2012-10-13T18:42:09.043 回答
1

我对扭曲的知识不够了解,无法给你一个正确的答案……但我可以指出一些好的方向。

使用扭曲的延迟,您可以创建一个回调链(成功)和 errbacks(失败),当某事完成时触发。

在您的示例中-我不确定 self.agent.request 做了什么,或者为什么它可能会返回部分数据。这对我来说听起来并不完全“正确”——但通常我会使用包含在延迟 SemaphoreService 中的阻塞代码来获取 url。

但是,根据您的代码,我想建议两件事:

a - 在此处阅读延迟http://twistedmatrix.com/documents/current/core/howto/defer.html

b - 您需要添加一个 errback 来处理错误请求。关于“包装”的文本必须处理这样一个事实,即 twisted 并没有真正引发错误——相反,它允许您定义 errBacks 来运行,并且您可以在其中捕获错误。有更好的扭曲的人希望可以更恰当地解释这一点 - 但由于延迟是异步的,你需要这样的机制来有效地处理错误。

class YourExample(object):
    def your_example(self):
        self.agent = Agent(reactor, pool=pool)
        self.deferred = self.agent.request(
                'GET',
                self.url,
                Headers({'User-Agent': ['Mozilla/5.0']})
            )

        self.deferred.addCallback(self.gotResponse).addErrback(self.gotBadResponse)

def gotBadResponse(self,raised):
    """you might have cleanup code here, or mark the url as bad in the database, or something similar"""
    pass
于 2012-10-13T19:11:57.397 回答