问题标签 [scrapyd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapyd:如何设置scrapyd任务优先级?
我有几个scrapy项目。我用scrapyd部署所有这些。一些蜘蛛很慢,而另一些则很快。现在,我想先运行快速蜘蛛。怎么做?
python - Scrapyd 工作没有完成
我有几只蜘蛛需要爬。我正在使用带有默认设置的scrapyd。我设法用 scrapyd 界面安排我的工作。在这一点上一切都很好,除了工作没有结束。每次我检查时,我发现有 16 个(4 个作业 / 4 个 cpus)作业正在运行,并且所有其他作业都处于挂起状态,除非我关闭了 scrapy。
我还检查了日志,它说:
你如何使用 scrapyd 抓取数百个蜘蛛?
编辑:
scrapy.cfg:
scrapy settings.py
amazon-ec2 - 如何在 EC2 实例上启动 scrapyd 服务器
我已经在 aws 上设置了一个实例。现在我想在特定端口上启动scrapyd。根据文档
aptitude install scrapyd-X.YY
但没有找到资质。我尝试使用 yum 安装 aptitude,但没有找到匹配项(可能它仅适用于 apt-get,但我也缺少 yum ap-get)
任何人都可以帮助我,还有其他方法可以做到这一点吗?
c# - 来自 asp.net 的 Scrapyd Post schedule.json
我在 Unix 机器上安装了 scrapyd 和 spider,运行时一切正常
我可以在 scrapyd API 的 Web 界面上看到作业状态、日志和项目。简而言之,一切都按预期工作。
现在我想通过使用 C# 向 ASP.Net 中的 API 发布 http 以编程方式启动蜘蛛,因为 scrapyd 将成为我的 .NET 项目的一部分,但我得到了
我找到了一个示例http://mahmoud.abdel-fattah.net/2012/07/04/super-simple-and-basic-scrapyd-web-interface/comment-page-1/它是一个 Jquery 帖子和这个示例适用于我,但以下一个不适用于我
请告诉我我做错了什么
python - 如何使用 python 脚本中的不同管道调用来自不同项目的蜘蛛?
我在名为 REsale、REbuy 和 RErent 的不同爬虫项目中有三个不同的蜘蛛,每个都有自己的管道,将它们的输出定向到我服务器上的各种 MySQL 表。当使用scrapy crawl
. 最终,我想要一个可以在我的 Windows 7 机器上作为服务运行的脚本,它以不同的时间间隔运行蜘蛛。ATM,我被困在scrapy API上。我什至无法让它运行其中一只蜘蛛!有什么特别的地方需要保存吗?目前它只是在我的根 python 目录中。Sale、Buy 和 Rent 是我使用的蜘蛛的名称,scrapy crawl
而 sale_spider 等是蜘蛛的 .py 文件。
这是返回错误:
我是新手,非常感谢任何帮助。
scrapy - scrapyd 如何确定项目的“最新”版本?
根据文档,在将项目部署到 scrapyd 时,我可以使用 git commit hash 作为版本,方法是:
该文档还说,scrapyd 可以保留同一个项目的多个版本,但只会运行最新版本的蜘蛛。
在这种情况下,scrapyd 如何确定要使用的“最新”版本?
我希望它不会按字典顺序对 git commit 哈希进行排序并使用该顺序。
scrapy - 如何使用 scrapyd 自动化我的蜘蛛运行?
我知道这可能看起来很荒谬。我已经放弃了 windows scrapyd 的实现,并设置了一个 ubuntu 机器,一切都运行得很好。我有 3 个项目,每个项目都有自己的蜘蛛。我可以使用以下命令从终端运行我的蜘蛛:
一切似乎都可以在 Web UI 中运行,并且当我运行上述代码时,刮掉的项目会显示在正确的位置。
我想每天凌晨 12:00 运行项目 1,每隔一天凌晨 2:00 运行项目 2,每两周在凌晨 4:00 运行项目 3。请帮助我学习如何做到这一点。
scrapyd 甚至是这项任务的合适解决方案吗?
python - 从 scrapyd 获取蜘蛛实例
当您使用scrapyd安排运行时,有没有办法获取运行的蜘蛛实例?我需要访问蜘蛛中的属性以在运行之外进行处理,并且不能使用 json/csv 文件来执行此操作。
python-2.7 - Scrapy get request url in parse
How can I get the request url in Scrapy's parse()
function? I have a lot of urls in start_urls
and some of them redirect my spider to homepage and as result I have an empty item. So I need something like item['start_url'] = request.url
to store these urls. I'm using the BaseSpider.
python - Scrapy 递归抓取 craigslist
我正在使用scrapy来废弃craigslist并获取所有链接,转到该链接,存储每个页面的描述并通过电子邮件发送回复。现在我已经编写了一个scrapy 脚本,它可以浏览craigslist/sof.com 并获取所有职位和网址。我想进入每个 url 并保存每个工作的电子邮件和描述。这是我的代码:
任何想法如何做到这一点?