我正在尝试从 Python 运行 Scrapy。我正在查看这段代码(来源):
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log
from testspiders.spiders.followall import FollowAllSpider
spider = FollowAllSpider(domain='scrapinghub.com')
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here
我的问题是我对如何调整这段代码来运行我自己的蜘蛛感到困惑。我将我的蜘蛛项目称为“spider_a”,它指定了要在蜘蛛本身中爬行的域。
我要问的是,如果我使用以下代码运行我的蜘蛛:
scrapy crawl spider_a
如何调整上面的示例 python 代码来做同样的事情?