问题标签 [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
982 浏览

python - 在 scrapyd 中安排一个蜘蛛并传递蜘蛛配置选项

我正在尝试将使用 slyd 创建的蜘蛛配置为使用scrapy-elasticsearch,所以我发送-d parameter=value配置它:

这是应该进入 settings.py 的默认配置:

我还没有找到一种方法来配置 slyd 以使用每个新蜘蛛自动生成这些设置,所以我试图将选项作为-d参数传递。scrapyd 仍然运行蜘蛛,但没有保存到 elasticsearch,错误日志显示如下:

0 投票
2 回答
2562 浏览

python - Scrapy部署不再工作

我似乎遇到了导致一些监听错误的 Scrapy spider 部署问题,尽管我无法成功使用以前的任何答案,要么是因为这是一个不同的问题,要么是修复不详细足以让我跟随。

我已经上传了一个项目,并且部署命令昨天工作了。现在我又玩弄它了,当我运行 scrapy deploy -l 查看项目列表时,我得到了这个:

所以一个常见的修复似乎是说我需要使用以下命令重新启动 Scrapyd:scrapyd。当我这样做时,我得到:

根据该信息和此处发布的其他一些问题,似乎是某种听力错误,但我只是无法弄清楚哪个解决方案应该有效或在哪里进行调整。

编辑:

这是我重新启动 Scrapyd 后得到的结果:

编辑2:

编辑 2

所以我回溯并再次开始在我的本地项目目录中尝试找出这一切都出错了。当我尝试在本地列出它们时,这就是我现在得到的:

编辑 3:

这是配置文件...

对于它的价值,我现在可以使用 curl 选项再次运行它,它会在 aws :6800 上保存一个日志文件和一个输出。尽管如此,scrapy deploy 命令仍然给了我之前发布的错误。

0 投票
1 回答
673 浏览

python - ImportError:加载对象'scrap.middlewares.RandomUserAgentMiddleware'时出错:没有名为scrap.middlewares的模块

我在~/portia/slyd/data/projects/scrap设置时有一个 portia scrapy 项目scrap.middlewares.RandomUserAgentMiddleware在 DOWNLOADER_MIDDLEWARES中使用,RandomUserAgentMiddleware~/portia/slyd/data/projects/scrap/middlewares.py.

部署项目后,生成的 egg 不包含middlewares.py,所以我收到此错误:

我如何告诉 scrapyd-deploy 也采用自定义中间件?

编辑:

settings.py的是: http: //pastebin.com/8gFU3YEw

我也尝试在生成的鸡蛋中手动包含middlewares.py,但它没有解决它,仍然是同样的错误。

0 投票
1 回答
1199 浏览

scrapy - 动态 Scrapy 设置

我有一个带有多个蜘蛛的 Scrapy 项目。该项目托管在一个 scrapyd 实例上。我希望能够动态更改项目 settings.py 文件中的设置(例如 DOWNLOADER_MIDDLEWARES)。

是否可以在向 scrapyd 实例发送请求时更改这些设置。请注意,我不想创建多个项目,因为这将导致跨项目重复公共代码。

谢谢

0 投票
2 回答
756 浏览

python - Scrapyd:将 CSV 文件写入远程服务器

我正在尝试在 EC2 上安排爬虫并将输出导出到 csv 文件 cppages-nov.csv,同时创建一个作业目录封装我需要暂停爬网,但它没有创建任何文件。我是否使用了正确的 Feed 导出?

0 投票
2 回答
656 浏览

scrapy - 项目没有显示在scrapyd中

我是 scrapyd 的新手,我已将以下代码插入到 scrapy.cfg 文件中。

如果我运行以下代码代码

我可以得到

查看所有可用项目

但它在我的机器上什么也没显示?

参考:http ://scrapyd.readthedocs.org/en/latest/deploy.html#deploying-a-project

如果有

如果我为另一个项目这样做意味着它会显示。

0 投票
0 回答
146 浏览

scrapy - 部署时,egg 文件需要在 scrapyd 中获得权限

如果我为另一个项目这样做意味着它会显示。

0 投票
1 回答
474 浏览

python - Scrapyd 部署不成功

我的 Scrapy.cfg 文件是

如果我执行以下命令意味着它会引发下面给出的错误。

那么如何通过scrapyd部署我的scrapy项目。

0 投票
1 回答
2343 浏览

python - Scrapyd错误:exceptions.AttributeError:'dict'对象没有属性'fields'

我最近向 scrapyd 发布了一个工作抓取。运行抓取时,我收到以下错误消息。

我查看了这个已关闭的问题: https ://github.com/scrapy/scrapy/issues/86并根据文档实施了推荐的修复:http: //scrapyd.readthedocs.org/en/latest/config.html

我的配置文件在这里::/etc/scrapyd/conf.d/000-default

我似乎无法通过将 items_dir 设置为 none 来禁用 Feedexporter 扩展。有没有一种新方法可以在 scrapyd 中禁用 feedexporter?

配置文件:

错误信息:

0 投票
2 回答
1804 浏览

scrapy - 如何在运行时监控scrapy的状态

我想知道scrapy运行时发生了什么,我如何监控状态?