python - Scrapyd：将 CSV 文件写入远程服务器

Question

我正在尝试在 EC2 上安排爬虫并将输出导出到 csv 文件 cppages-nov.csv，同时创建一个作业目录封装我需要暂停爬网，但它没有创建任何文件。我是否使用了正确的 Feed 导出？

curl http://awsserver:6800/schedule.json -d project=wallspider -d spider=cppages -d JOBDIR=/home/ubuntu/scrapy/sitemapcrawl/crawls/cppages-nov -d FEED_URI=/home/ubuntu/scrapy/sitemapcrawl/cppages-nov.csv -d FEED_FORMAT=csv

score 5 · Accepted Answer

curl http://amazonaws.com:6800/schedule.json -d project=wallspider -d spider=cppages -d setting=FEED_URI=/home/ubuntu/scrapy/sitemapcrawl/results/cppages.csv -d setting=FEED_FORMAT=csv -d setting=JOBDIR=/home/ubuntu/scrapy/sitemapcrawl/crawl/cppages-nov

score 2 · Accepted Answer

在您的设置文件中使用此提要

FEED_EXPORTERS = {
'csv': 'scrapy.contrib.exporter.CsvItemExporter',
}
FEED_FORMAT = 'csv'

python - Scrapyd：将 CSV 文件写入远程服务器

2 回答 2

Related

Reference