python - 使用 Twisted Server 部署 Scrapy Spiders

Question

我有+20 scrapy crawlers我想deploy从浏览器手动webpage。为了实现这一点，我创建了一个twisted server在 shell 进程中执行以下命令的简单程序：

scrapyd-deploy default -p $project
curl http://127.0.0.1:6800/schedule.json -d project=$project -d spider=$spider

这些命令在twistedusing中执行utils.getProcessOutput(scriptname)。前面的两个命令script作为参数在给定的内部。

尝试使用执行扭曲服务器时twistd -y <server.py>，会出现以下错误：[Failure instance: Traceback (failure with no frames): : got stderr: 'Packing version 1399464111\n' ].

这是twisted服务器的代码：

#/usr/bin/python
from twisted.internet import utils, reactor
from twisted.web import server, resource
from twisted.application import internet, service

class CrawlerResource(resource.Resource):
    isLeaf = True
    script = "./script2.sh"

    def render_GET(self, request):
        request.write("<pre>\n")
        deferred = utils.getProcessOutput(self.script)
        deferred.addCallback(lambda s: (request.write(s+"success!\n"), request.finish()))
        deferred.addErrback(lambda s: (request.write(str(s)), request.finish()))

        return server.NOT_DONE_YET



# factory: create a protocol for each connection
resource = CrawlerResource()
factory = server.Site(resource)

# application & service: run server in the background as a service
application = service.Application("Crawlers deployer")
service = internet.TCPServer(8000, factory)
service.setServiceParent(application)

是什么导致了这个错误（它不是很冗长）？

score 1 · Accepted Answer

子进程的标准错误流上的字节导致了这种情况。 getProcessOutput将任何标准错误输出视为错误并失败Deferred.

您可以通过传递errortoo=True给来解决这个问题getProcessOutput。这使得它在结果中将 stdout 和 stderr 混合在一起，而不是将 stderr 上的数据视为错误。

您可以在getProcessOutput API 文档中阅读有关此行为的信息。

python - 使用 Twisted Server 部署 Scrapy Spiders

1 回答 1

Related

Reference