问题标签 [scrapyd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

350 问题

0 投票

1 回答

1083 浏览

python - 将scrapy项目部署到scrapyd时HTTPCACHE不起作用

当我尝试将 HTTPCACHE 与 scrapyd 一起使用时，出现以下错误：

[scrapy] WARNING: Disabled Httpcache Middlware: unable to find scrapy.cfg file to infer project data dir

python middleware scrapy http-caching scrapyd

2011-06-28T17:53:02.910

0 投票

1 回答

877 浏览

scrapy - Scrapy 服务器设置

我试图在 AWS 上设置一个 scrapyd 服务器，并试图从我的本地机器上访问它。到目前为止，我设法让scrapyd 在远程机器上运行。

我知道它正在运行，因为当我这样做时，start scrapyd我得到了start: Job is already running: scrapyd.

我需要做什么才能从本地计算机访问它？

scrapy scrapyd

2011-12-17T10:46:00.347

0 投票

2 回答

4259 浏览

python - Scrapy 的 Scrapyd 调度蜘蛛太慢了

我正在运行 Scrapyd，同时启动 4 个蜘蛛时遇到了一个奇怪的问题。

我已经为 Scrapyd 设置了这些设置：

为什么 Scrapyd 不同时运行蜘蛛，就像它们预定的一样快？

python scrapy scrapyd

2012-02-06T14:34:22.773

0 投票

3 回答

1972 浏览

python - 蜘蛛内部的Scrapyd jobid值

框架 Scrapy - Scrapyd 服务器。

我在蜘蛛内部获取 jobid 值时遇到了一些问题。

将数据发布到http://localhost:6800/schedule.json后，响应为

但是我需要在这个过程中在当前蜘蛛中使用这个jobid。它可用于打开 {jobid}.log 文件或其他动态原因。

但是我只有在任务完成后才能看到这个jobid :( 谢谢！

python scrapy scrapyd

2012-03-11T04:28:07.537

0 投票

1 回答

486 浏览

python - 爬虫进程意外死亡

我面临着爬虫进程意外死亡的问题。

我正在使用scrapy 0.14，0.12也存在问题。

scrapyd 日志显示如下条目：进程死亡：exitstatus=None 蜘蛛日志不显示蜘蛛关闭信息，如我的数据库状态所示。

有没有其他人遇到过类似的情况？我如何追踪这些过程消失的原因，任何想法，建议？

python scrapy scrapyd

2012-04-12T19:25:23.610

0 投票

2 回答

7328 浏览

python - 使用scrapyd一次运行多个scrapy spider

我在一个项目中使用scrapy，我想抓取多个站点 - 可能是数百个 - 我必须为每个站点编写一个特定的蜘蛛。我可以在部署到scrapyd的项目中安排一个蜘蛛，使用：

但是我如何一次安排一个项目中的所有蜘蛛呢？

非常感谢所有帮助！

python screen-scraping scrapy scrapyd

2012-05-29T14:23:15.063

0 投票

4 回答

8387 浏览

python - 使用 scrapyd 部署项目时出错

我的项目文件夹中有多个蜘蛛，并且想一次运行所有蜘蛛，所以我决定使用 scrapyd 服务运行它们。我已经通过看到这里开始这样做了

首先我在当前项目文件夹中

我打开了scrapy.cfg文件并在之后取消了对 url 行的注释

[部署]
我有运行scrapy server命令，工作正常，scrapyd 服务器运行
我试过这个命令scrapy deploy -l

结果： default http://localhost:6800/
当我尝试这个命令时，scrapy deploy -L scrapyd我得到了以下输出

结果：

当我尝试使用此命令部署项目时scrapy deploy scrapyd -p default出现以下错误

我真的无法识别乳清 scrapyd 是否显示上述错误，可以引导我找到如何将项目部署到 scrapyd 的正确方法

提前致谢..........

编辑代码：

在看到 Peter Kirby 的回答后，我在 scrapy.cfg 中命名了 target 并在我的项目文件夹中尝试了以下命令，

命令：

然后我收到以下错误

这个怎么解决。。。。。。

python scrapy scrapyd

2012-07-06T12:48:04.683

0 投票

1 回答

3995 浏览

python - 使用 scrapyd 运行多个蜘蛛

我的项目中有多个蜘蛛，所以决定通过上传到 scrapyd 服务器来运行它们。我已经成功上传了我的项目，当我运行命令时我可以看到所有的蜘蛛

当我运行以下命令时

因为只给了一个蜘蛛，所以只有一个蜘蛛运行，但我想在这里运行多个蜘蛛，所以下面的命令适合在 scrapyd 中运行多个蜘蛛？

稍后我将使用 cron 作业运行此命令，我的意思是我将安排此命令频繁运行

python scrapy web-crawler scrapyd

2012-07-09T07:45:55.983

0 投票

2 回答

763 浏览

python - 尝试运行命令“scrapy crawl test”时出现 libxml2 或 lxml 错误

我的源代码如下：

当我在 shell 命令（scrapy shell http://test.com/test）中运行时，它工作正常。我没有收到任何错误。但是，当我运行命令“scrapy crawl test”时，我遇到以下错误：

这不是真的，因为我已经安装了 libxml2 和 lxml。我从http://www.lfd.uci.edu/~gohlke/pythonlibs/下载并安装了二进制包（64 位）另外，我可以从 cmd 成功导入 lxml 和 libxml2。

请帮我解决这个问题。

太感谢了。

python lxml scrapy libxml2 scrapyd

2012-08-15T19:25:33.707

0 投票

3 回答

3309 浏览

python - 抓取日志问题

我在一个项目中有多个蜘蛛，问题是现在我在 SETTINGS 中定义LOG_FILE

我想要的是scrapy_SPIDERNAME_DATETIME

但我无法在 log_file name 中提供 spidername ..

我发现

并在每个蜘蛛初始化方法中调用它，但它不起作用..

任何帮助，将不胜感激

python python-2.7 scrapy scrapyd

2012-08-21T06:57:31.923

1 2 3 4 5 6 7 8 9 10