1

来自https://github.com/scrapinghub/portia#running-a-portia-spider的给定语法

portiacrawl PROJECT_PATH SPIDER_NAME

我试着跑步

portiacrawl D:/portia-master/slyd/data/projects/darkwoods example
portiacrawl slyd/data/projects/darkwoods example
portiacrawl slyd/data/projects/darkwoods

但他们给了我同样的帮助信息。

Usage: portiacrawl <project dir/project zip> [spider] [options]

Allow to easily run slybot spiders on console. If spider is not given, print a
list of available spiders inside the project

Options:
  -h, --help            show this help message and exit
  --settings=SETTINGS   Give specific settings module (must be on python path)
  --logfile=LOGFILE     Specify log file
  -a NAME=VALUE         Add spider arguments
  -s NAME=VALUE         Add extra scrapy settings
  -o FILE, --output=FILE
                        dump scraped items into FILE (use - for stdout)
  -t FORMAT, --output-format=FORMAT
                        format to use for dumping items with -o (default:
                        jsonlines)
  -v, --verbose         more verbose

我对波西亚很陌生,所以我很困惑该怎么做。谁能给我一个我应该为 PROJECT_PATH 写什么的样本?我目前正在通过 vagrant 使用 portia。

4

3 回答 3

1

我忘记是哪个问题了,但是有人在使用命令 portiacrawl 之前提到了 cd 到目录。在探索 vagrant 一段时间后,我在 /vagrant/slyd/data/projects 找到了该目录及其目录。

所以要运行 portiacrawl,你只需要在执行 portiacrawl 之前 cd 到 portia 目录

portiacrawl /vagrant/slyd/data/projects/[project name] [spider] [options]

我运行了这个命令并且它有效

portiacrawl /vagrant/slyd/data/projects/darkwoods example
于 2014-11-02T14:56:35.707 回答
0

您可以使用 scrapyd 来运行蜘蛛。

curl http://your_scrapyd_host:6800/schedule.json -d project=your_project_name -d spider=your_spider_name

这样你也可以对蜘蛛进行基本的监控。我还发现了一个快速简单的 Web 界面,它有助于在使用 scrapyd 部署蜘蛛后进行部署: https ://gist.github.com/MihaiCraciun/78f0a53b7a99587d178b

希望能帮助到你 !

于 2014-12-22T12:53:24.703 回答
0

我已经创建了你可以在github找到的 portia-dashboard,docker 镜像也可以在 docker hub找到。使用 portia-dashboard,您可以在简单的 Web 界面中通过鼠标单击来部署项目、启动爬虫或监控作业状态。请参阅文档以获取有关如何启动蜘蛛的详细信息。

于 2018-01-23T06:02:49.397 回答