3

当我执行这样的脚本时,如何查看蜘蛛的解析函数的返回数据?

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log, signals
from testspiders.spiders.followall import FollowAllSpider

spider = FollowAllSpider(domain='scrapinghub.com')
crawler = Crawler(Settings())
crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.configure()
crawler.crawl(spider)
crawler.start()
crawler.stats
#log.start()
reactor.run()

我禁用日志以查看蜘蛛中的打印消息,但启用日志后,返回数据也不会显示。

蜘蛛解析函数的代码返回一个简单的字符串。

我如何获得这些数据?我尝试打印“reactor.run”结果,但总是“无”

4

2 回答 2

4

这是我找到收集物品的方式:

items = []
def add_item(item):
    items.append(item)

crawler.signals.connect(add_item, signals.item_passed)

我在链接的问题中给出了我的原始答案并提供了更多细节: https ://stackoverflow.com/a/23892650/2730032

于 2014-05-27T15:06:34.203 回答
0

如果您想在屏幕上查看日志记录,请更改此行:

#log.start()

对此:

log.start(loglevel=log.DEBUG)

到你的脚本。

看到这个问题

于 2013-09-25T22:08:31.790 回答