问题标签 [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
578 浏览

python - Scrapyd:如何设置scrapyd任务优先级?

我有几个scrapy项目。我用scrapyd部署所有这些。一些蜘蛛很慢,而另一些则很快。现在,我想先运行快速蜘蛛。怎么做?

0 投票
1 回答
1296 浏览

python - Scrapyd 工作没有完成

我有几只蜘蛛需要爬。我正在使用带有默认设置的scrapyd。我设法用 scrapyd 界面安排我的工作。在这一点上一切都很好,除了工作没有结束。每次我检查时,我发现有 16 个(4 个作业 / 4 个 cpus)作业正在运行,并且所有其他作业都处于挂起状态,除非我关闭了 scrapy。

我还检查了日志,它说:

你如何使用 scrapyd 抓取数百个蜘蛛?

编辑:

scrapy.cfg:

scrapy settings.py

0 投票
2 回答
1276 浏览

amazon-ec2 - 如何在 EC2 实例上启动 scrapyd 服务器

我已经在 aws 上设置了一个实例。现在我想在特定端口上启动scrapyd。根据文档

aptitude install scrapyd-X.YY

但没有找到资质。我尝试使用 yum 安装 aptitude,但没有找到匹配项(可能它仅适用于 apt-get,但我也缺少 yum ap-get)

任何人都可以帮助我,还有其他方法可以做到这一点吗?

0 投票
1 回答
402 浏览

c# - 来自 asp.net 的 Scrapyd Post schedule.json

我在 Unix 机器上安装了 scrapyd 和 spider,运行时一切正常

我可以在 scrapyd API 的 Web 界面上看到作业状态、日志和项目。简而言之,一切都按预期工作。

现在我想通过使用 C# 向 ASP.Net 中的 API 发布 http 以编程方式启动蜘蛛,因为 scrapyd 将成为我的 .NET 项目的一部分,但我得到了

我找到了一个示例http://mahmoud.abdel-fattah.net/2012/07/04/super-simple-and-basic-scrapyd-web-interface/comment-page-1/它是一个 Jquery 帖子和这个示例适用于我,但以下一个不适用于我

请告诉我我做错了什么

0 投票
1 回答
646 浏览

python - 如何使用 python 脚本中的不同管道调用来自不同项目的蜘蛛?

我在名为 REsale、REbuy 和 RErent 的不同爬虫项目中有三个不同的蜘蛛,每个都有自己的管道,将它们的输出定向到我服务器上的各种 MySQL 表。当使用scrapy crawl. 最终,我想要一个可以在我的 Windows 7 机器上作为服务运行的脚本,它以不同的时间间隔运行蜘蛛。ATM,我被困在scrapy API上。我什至无法让它运行其中一只蜘蛛!有什么特别的地方需要保存吗?目前它只是在我的根 python 目录中。Sale、Buy 和 Rent 是我使用的蜘蛛的名称,scrapy crawl而 sale_spider 等是蜘蛛的 .py 文件。

这是返回错误:

我是新手,非常感谢任何帮助。

0 投票
1 回答
324 浏览

scrapy - scrapyd 如何确定项目的“最新”版本?

根据文档,在将项目部署到 scrapyd 时,我可以使用 git commit hash 作为版本,方法是:

该文档还说,scrapyd 可以保留同一个项目的多个版本,但只会运行最新版本的蜘蛛。

在这种情况下,scrapyd 如何确定要使用的“最新”版本?

我希望它不会按字典顺序对 git commit 哈希进行排序并使用该顺序。

0 投票
1 回答
661 浏览

scrapy - 如何使用 scrapyd 自动化我的蜘蛛运行?

我知道这可能看起来很荒谬。我已经放弃了 windows scrapyd 的实现,并设置了一个 ubuntu 机器,一切都运行得很好。我有 3 个项目,每个项目都有自己的蜘蛛。我可以使用以下命令从终端运行我的蜘蛛:

一切似乎都可以在 Web UI 中运行,并且当我运行上述代码时,刮掉的项目会显示在正确的位置。

我想每天凌晨 12:00 运行项目 1,每隔一天凌晨 2:00 运行项目 2,每两周在凌晨 4:00 运行项目 3。请帮助我学习如何做到这一点。

scrapyd 甚至是这项任务的合适解决方案吗?

0 投票
1 回答
148 浏览

python - 从 scrapyd 获取蜘蛛实例

当您使用scrapyd安排运行时,有没有办法获取运行的蜘蛛实例?我需要访问蜘蛛中的属性以在运行之外进行处理,并且不能使用 json/csv 文件来执行此操作。

0 投票
5 回答
52590 浏览

python-2.7 - Scrapy get request url in parse

How can I get the request url in Scrapy's parse() function? I have a lot of urls in start_urls and some of them redirect my spider to homepage and as result I have an empty item. So I need something like item['start_url'] = request.url to store these urls. I'm using the BaseSpider.

0 投票
2 回答
669 浏览

python - Scrapy 递归抓取 craigslist

我正在使用scrapy来废弃craigslist并获取所有链接,转到该链接,存储每个页面的描述并通过电子邮件发送回复。现在我已经编写了一个scrapy 脚本,它可以浏览craigslist/sof.com 并获取所有职位和网址。我想进入每个 url 并保存每个工作的电子邮件和描述。这是我的代码:

任何想法如何做到这一点?