问题标签 [scrapyd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

350 问题

0 投票

1 回答

578 浏览

python - Scrapyd：如何设置scrapyd任务优先级？

我有几个scrapy项目。我用scrapyd部署所有这些。一些蜘蛛很慢，而另一些则很快。现在，我想先运行快速蜘蛛。怎么做？

2013-09-18T08:05:24.193

0 投票

1 回答

1296 浏览

python - Scrapyd 工作没有完成

我有几只蜘蛛需要爬。我正在使用带有默认设置的scrapyd。我设法用 scrapyd 界面安排我的工作。在这一点上一切都很好，除了工作没有结束。每次我检查时，我发现有 16 个（4 个作业 / 4 个 cpus）作业正在运行，并且所有其他作业都处于挂起状态，除非我关闭了 scrapy。

我还检查了日志，它说：

你如何使用 scrapyd 抓取数百个蜘蛛？

编辑：

scrapy.cfg：

scrapy settings.py

python scrapy scrapyd

2013-09-22T13:26:27.123

0 投票

2 回答

1276 浏览

amazon-ec2 - 如何在 EC2 实例上启动 scrapyd 服务器

我已经在 aws 上设置了一个实例。现在我想在特定端口上启动scrapyd。根据文档

aptitude install scrapyd-X.YY

但没有找到资质。我尝试使用 yum 安装 aptitude，但没有找到匹配项（可能它仅适用于 apt-get，但我也缺少 yum ap-get）

任何人都可以帮助我，还有其他方法可以做到这一点吗？

amazon-ec2 scrapyd aptitude

2013-10-31T19:05:44.500

0 投票

1 回答

402 浏览

c# - 来自 asp.net 的 Scrapyd Post schedule.json

我在 Unix 机器上安装了 scrapyd 和 spider，运行时一切正常

我可以在 scrapyd API 的 Web 界面上看到作业状态、日志和项目。简而言之，一切都按预期工作。

现在我想通过使用 C# 向 ASP.Net 中的 API 发布 http 以编程方式启动蜘蛛，因为 scrapyd 将成为我的 .NET 项目的一部分，但我得到了

我找到了一个示例http://mahmoud.abdel-fattah.net/2012/07/04/super-simple-and-basic-scrapyd-web-interface/comment-page-1/它是一个 Jquery 帖子和这个示例适用于我，但以下一个不适用于我

请告诉我我做错了什么

c#asp.net scrapy scrapyd

2013-11-07T07:12:18.030

0 投票

1 回答

646 浏览

python - 如何使用 python 脚本中的不同管道调用来自不同项目的蜘蛛？

我在名为 REsale、REbuy 和 RErent 的不同爬虫项目中有三个不同的蜘蛛，每个都有自己的管道，将它们的输出定向到我服务器上的各种 MySQL 表。当使用scrapy crawl. 最终，我想要一个可以在我的 Windows 7 机器上作为服务运行的脚本，它以不同的时间间隔运行蜘蛛。ATM，我被困在scrapy API上。我什至无法让它运行其中一只蜘蛛！有什么特别的地方需要保存吗？目前它只是在我的根 python 目录中。Sale、Buy 和 Rent 是我使用的蜘蛛的名称，scrapy crawl而 sale_spider 等是蜘蛛的 .py 文件。

这是返回错误：

我是新手，非常感谢任何帮助。

python api windows-7 scrapy scrapyd

2013-11-10T03:05:00.730

0 投票

1 回答

324 浏览

scrapy - scrapyd 如何确定项目的“最新”版本？

根据文档，在将项目部署到 scrapyd 时，我可以使用 git commit hash 作为版本，方法是：

该文档还说，scrapyd 可以保留同一个项目的多个版本，但只会运行最新版本的蜘蛛。

在这种情况下，scrapyd 如何确定要使用的“最新”版本？

我希望它不会按字典顺序对 git commit 哈希进行排序并使用该顺序。

scrapy scrapyd

2013-11-14T03:51:54.503

0 投票

1 回答

661 浏览

scrapy - 如何使用 scrapyd 自动化我的蜘蛛运行？

我知道这可能看起来很荒谬。我已经放弃了 windows scrapyd 的实现，并设置了一个 ubuntu 机器，一切都运行得很好。我有 3 个项目，每个项目都有自己的蜘蛛。我可以使用以下命令从终端运行我的蜘蛛：

一切似乎都可以在 Web UI 中运行，并且当我运行上述代码时，刮掉的项目会显示在正确的位置。

我想每天凌晨 12:00 运行项目 1，每隔一天凌晨 2:00 运行项目 2，每两周在凌晨 4:00 运行项目 3。请帮助我学习如何做到这一点。

scrapyd 甚至是这项任务的合适解决方案吗？

scrapy scrapyd

2013-11-16T06:02:06.547

0 投票

1 回答

148 浏览

python - 从 scrapyd 获取蜘蛛实例

当您使用scrapyd安排运行时，有没有办法获取运行的蜘蛛实例？我需要访问蜘蛛中的属性以在运行之外进行处理，并且不能使用 json/csv 文件来执行此操作。

python scrapy scrapyd

2013-11-18T20:22:20.687

0 投票

5 回答

52590 浏览

python-2.7 - Scrapy get request url in parse

How can I get the request url in Scrapy's parse() function? I have a lot of urls in start_urls and some of them redirect my spider to homepage and as result I have an empty item. So I need something like item['start_url'] = request.url to store these urls. I'm using the BaseSpider.

python-2.7 scrapy scrapyd

2013-11-19T20:07:27.960

0 投票

2 回答

669 浏览

python - Scrapy 递归抓取 craigslist

我正在使用scrapy来废弃craigslist并获取所有链接，转到该链接，存储每个页面的描述并通过电子邮件发送回复。现在我已经编写了一个scrapy 脚本，它可以浏览craigslist/sof.com 并获取所有职位和网址。我想进入每个 url 并保存每个工作的电子邮件和描述。这是我的代码：

任何想法如何做到这一点？

python scrapy scrapyd

2013-11-26T02:07:13.530

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapyd]

Reference