问题标签 [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1645 浏览

scrapy - 保持scrapyd运行

我在 debian 机器上安装了 scrapy 和 scrapyd。我使用 ssh 隧道登录到该服务器。然后我通过以下方式开始scrapyd:scrapyd

Scrapyd 启动正常,然后我打开另一个 ssh 隧道到服务器并安排我的蜘蛛: curl localhost:6800/schedule.json -d project=myproject -d spider=myspider

蜘蛛运行良好,一切都很好。

问题是当我退出启动 scrapyd 的会话时,scrapyd 停止运行。这阻止了我使用 cron 来调度带有 scrapyd 的蜘蛛,因为在启动 cronjob 时,scrapyd 没有运行。

我的简单问题是:我如何保持scrapyd 运行,以便在我退出ssh 会话时它不会关闭。

0 投票
2 回答
6365 浏览

python - 构建我的 python 项目的鸡蛋

有人可以指导我如何逐步完成我现有的 python 项目吗?该文档一直在包中提到有关 setup.py 的内容,但我在我的项目中找不到它...

谢谢你,

0 投票
1 回答
1227 浏览

scrapy - 如何为 200 多个蜘蛛优化 Scrapyd 设置

我的 scrapyd 每天同时处理 200 只蜘蛛。昨天,服务器崩溃了,因为 RAM 达到了上限。

我正在使用scrapyd默认设置

这是安排所有蜘蛛的代码:

如何优化 scrapyd 设置以处理 200 多个蜘蛛?

谢谢

0 投票
0 回答
140 浏览

amazon-ec2 - scrapyd:如何使用 cmd 参数覆盖蜘蛛名称

我正在使用scrapyd(部署在AWS的ec2实例上的项目),它接受种子url来启动,我想每次运行具有不同名称的蜘蛛时启动,这样我就可以在ec2实例上轻松管理项目和日志。

在本地我可以这样做

它工作正常,

当我从命令行在 ec2 实例上尝试这个启动蜘蛛时

它抛出错误

{"status": "error", "message": "add() 为关键字参数 'name' 获得了多个值"}

有没有办法通过覆盖它的名字来运行蜘蛛。?

0 投票
1 回答
1792 浏览

python - 使用 pip 安装 scrapyd 的日志

我用 pip 安装了 scrapyd,但我没有 '/var/log/scrapyd' 目录。我试图找出我的http调用发生了什么,因为我在启动它时得到了“OK”状态,但是在“logs/project/spider/”中没有生成日志(根据listjobs.json,在一个之后其次,作业被标记为已完成,但我没有看到错误。)

0 投票
1 回答
530 浏览

scrapy - 部署时scrapyd传参数

这是一个 scrapy.cfg 文件的简单示例:

我想知道是否可以使用此文件将任何参数传递给我的 scrapyd 实例。我想做的是将参数传递给我的一个中间件。您可以将参数传递给您的蜘蛛或覆盖您的设置,但不能使用中间件。我在想如果一个参数project可以传递给我的服务器,我可以在我的中间件中使用它。

0 投票
2 回答
4278 浏览

python - 如何从命令行使用 Scrapy 传递表单数据?

如何从命令行传递用户名和密码?谢谢!

0 投票
3 回答
7257 浏览

python - 运行多个 Scrapy Spiders(简单的方法)Python

Scrapy 非常酷,但是我发现文档非常简单,一些简单的问题很难回答。在将各种 stackoverflow 中的各种技术组合在一起后,我终于想出了一种简单且不太技术化的方法来运行多个 scrapy 蜘蛛。我想它比尝试实现scrapyd等技术更少:

所以这里有一个蜘蛛很擅长做它的一项工作是在表单请求之后抓取一些数据:

而不是故意用我想要的表单输入写出表单数据,即“20”和“25:

我用了“自己”。+ 变量名:

然后,这允许您使用所需的参数从命令行调用蜘蛛(见下文)。使用 python subprocess call() 函数可以轻松地一个接一个地调用这些命令行。这意味着我可以进入我的命令行,输入“python scrapymanager.py”并让我所有的蜘蛛做他们的事情,每个蜘蛛都在他们的命令行中传递不同的参数,然后将他们的数据下载到正确的位置:

因此,与其花费数小时尝试安装一个复杂的单蜘蛛,它可以连续爬行每种形式(在我的情况下是不同的游泳泳姿),这是一种“一次”运行许多蜘蛛的非常轻松的方式(我确实包括了延迟在使用 sleep() 函数的每个scrapy调用之间)。

希望这可以帮助某人。

0 投票
2 回答
813 浏览

windows - 在 Windows 上安装 scrapyd 的问题

我在 Wndows 7 上安装 scrapyd 时遇到问题我已经使用 easy_install 安装了该软件包,但该命令仍然scrapyd没有任何结果。这是我安装的输出:

任何想法,问题是什么?

0 投票
1 回答
3025 浏览

curl - Scrapyd:一旦我使用scrapyd安排它,我在哪里可以看到我的爬虫的输出

我是scrapy和scrapyd的新手。做了一些阅读并开发了我的爬虫,它可以爬取一个新闻网站并给我所有的新闻文章。如果我简单地运行爬虫

它正确地为我提供了 something.txt 中的所有抓取数据。

现在我尝试使用 scrapyd 在 localhost:6800 上部署我的 scrapy 爬虫项目。

我安排了爬虫使用

它在命令行上给了我这个

我认为这是正确的,我什至可以在 localhost:6800 的 UI 视图中将我的 cralwer 视为工作

但是我在哪里可以找到我以前在 something.txt 中收集的爬虫抓取的数据。

请帮忙....

这是我的爬虫代码