问题标签 [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1083 浏览

python - 将scrapy项目部署到scrapyd时HTTPCACHE不起作用

当我尝试将 HTTPCACHE 与 scrapyd 一起使用时,出现以下错误:

[scrapy] WARNING: Disabled Httpcache Middlware: unable to find scrapy.cfg file to infer project data dir

0 投票
1 回答
877 浏览

scrapy - Scrapy 服务器设置

我试图在 AWS 上设置一个 scrapyd 服务器,并试图从我的本地机器上访问它。到目前为止,我设法让scrapyd 在远程机器上运行。

我知道它正在运行,因为当我这样做时,start scrapyd我得到了start: Job is already running: scrapyd.

我需要做什么才能从本地计算机访问它?

0 投票
2 回答
4259 浏览

python - Scrapy 的 Scrapyd 调度蜘蛛太慢了

我正在运行 Scrapyd,同时启动 4 个蜘蛛时遇到了一个奇怪的问题。

我已经为 Scrapyd 设置了这些设置:

为什么 Scrapyd 不同时运行蜘蛛,就像它们预定的一样快?

0 投票
3 回答
1972 浏览

python - 蜘蛛内部的Scrapyd jobid值

框架 Scrapy - Scrapyd 服务器。

我在蜘蛛内部获取 jobid 值时遇到了一些问题。

将数据发布到http://localhost:6800/schedule.json后,响应为

但是我需要在这个过程中在当前蜘蛛中使用这个jobid。它可用于打开 {jobid}.log 文件或其他动态原因。

但是我只有在任务完成后才能看到这个jobid :( 谢谢!

0 投票
1 回答
486 浏览

python - 爬虫进程意外死亡

我面临着爬虫进程意外死亡的问题。

我正在使用scrapy 0.14,0.12也存在问题。

scrapyd 日志显示如下条目: 进程死亡:exitstatus=None 蜘蛛日志不显示蜘蛛关闭信息,如我的数据库状态所示。

有没有其他人遇到过类似的情况?我如何追踪这些过程消失的原因,任何想法,建议?

0 投票
2 回答
7328 浏览

python - 使用scrapyd一次运行多个scrapy spider

我在一个项目中使用scrapy,我想抓取多个站点 - 可能是数百个 - 我必须为每个站点编写一个特定的蜘蛛。我可以在部署到scrapyd的项目中安排一个蜘蛛,使用:

但是我如何一次安排一个项目中的所有蜘蛛呢?

非常感谢所有帮助!

0 投票
4 回答
8387 浏览

python - 使用 scrapyd 部署项目时出错

我的项目文件夹中有多个蜘蛛,并且想一次运行所有蜘蛛,所以我决定使用 scrapyd 服务运行它们。我已经通过看到这里开始这样做了

首先我在当前项目文件夹中

  1. 我打开了scrapy.cfg文件并在之后取消了对 url 行的注释

    [部署]

  2. 我有运行scrapy server命令,工作正常,scrapyd 服务器运行

  3. 我试过这个命令scrapy deploy -l

    结果 : default http://localhost:6800/

  4. 当我尝试这个命令时,scrapy deploy -L scrapyd我得到了以下输出

结果:

当我尝试使用此命令部署项目时scrapy deploy scrapyd -p default出现以下错误

我真的无法识别乳清 scrapyd 是否显示上述错误,可以引导我找到如何将项目部署到 scrapyd 的正确方法

提前致谢..........

编辑代码

在看到 Peter Kirby 的回答后,我在 scrapy.cfg 中命名了 target 并在我的项目文件夹中尝试了以下命令,

命令

然后我收到以下错误

这个怎么解决。。。。。。

0 投票
1 回答
3995 浏览

python - 使用 scrapyd 运行多个蜘蛛

我的项目中有多个蜘蛛,所以决定通过上传到 scrapyd 服务器来运行它们。我已经成功上传了我的项目,当我运行命令时我可以看到所有的蜘蛛

当我运行以下命令时

因为只给了一个蜘蛛,所以只有一个蜘蛛运行,但我想在这里运行多个蜘蛛,所以下面的命令适合在 scrapyd 中运行多个蜘蛛?

稍后我将使用 cron 作业运行此命令,我的意思是我将安排此命令频繁运行

0 投票
2 回答
763 浏览

python - 尝试运行命令“scrapy crawl test”时出现 libxml2 或 lxml 错误

我的源代码如下:

当我在 shell 命令(scrapy shell http://test.com/test)中运行时,它工作正常。我没有收到任何错误。但是,当我运行命令“scrapy crawl test”时,我遇到以下错误:

这不是真的,因为我已经安装了 libxml2 和 lxml。我从http://www.lfd.uci.edu/~gohlke/pythonlibs/下载并安装了二进制包(64 位) 另外,我可以从 cmd 成功导入 lxml 和 libxml2。

请帮我解决这个问题。

太感谢了。

0 投票
3 回答
3309 浏览

python - 抓取日志问题

我在一个项目中有多个蜘蛛,问题是现在我在 SETTINGS 中定义LOG_FILE

我想要的是scrapy_SPIDERNAME_DATETIME

但我无法在 log_file name 中提供 spidername ..

我发现

并在每个蜘蛛初始化方法中调用它,但它不起作用..

任何帮助,将不胜感激