问题标签 [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
877 浏览

python-2.7 - scrapy爬虫占用大量CPU

我有多个蜘蛛在多个实例(4)中并行运行。他们都使用了几乎 100% 的 cpu 使用率。

我已经使用scrapyd部署了它们。尝试将 max_concurrent_requests、CONCURRENT_REQUESTS、CONCURRENT_REQUESTS_PER_DOMAIN 等 scrapyd 设置更改为最小值,但没有成功。

我正在使用 python 2.7.5 和 scrapy 0.24

我搜索了解决方案并找到了这个页面

https://groups.google.com/forum/#!topic/scrapy-users/Rgq07ldcoPs

我无法得到他们的解决方案

提前致谢

0 投票
2 回答
942 浏览

python - 部署scrapy项目时出错

我从 ubuntu repos 安装了 scrapy 0.24、scrapyd、scrapyd-deploy 软件包。当我尝试部署我的项目时:

/tmp/scrapydeploy-jmYE9g/stderr 内容:

有任何想法吗?

0 投票
1 回答
1309 浏览

python - Scrapy + Django 在生产中

我正在编写一个使用 Scrapy 的 Django Web 应用程序,并且在本地运行良好,但我想知道如何设置一个生产环境,让我的蜘蛛定期自动启动(我的意思是,一旦蜘蛛完成它的工作,它就会重新启动一段时间后……例如 24 小时后)。目前我使用自定义 Django 命令启动我的蜘蛛,其主要目标是允许使用 Django 的 ORM 来存储抓取的项目,所以我运行:

结果存储在我的 Postgres 数据库中。我安装了scrapyd,因为它似乎是在生产中运行 scrapy 的首选方式,但不幸的是,如果不编写猴子补丁(我想避免),我就无法使用它,因为它使用 JSON 作为其 Web 服务 API 和我得到“modelX 不是 json 可序列化”异常。我查看了django-dynamic-scraper,但它似乎不像 Scrapy 那样灵活和可定制,事实上在他们说的文档中:

由于它简化了事情,DDS 不适用于所有类型的抓取工具,但它非常适合定期抓取带有更新项目列表的网站的相对常见情况

我也想过使用 crontab 来安排我的蜘蛛......但是我应该在什么时间间隔运行我的蜘蛛?如果我的 EC2 实例(我将使用 amazon webservices 来托管我的代码)需要重新启动,我必须手动重新运行我的所有蜘蛛......嗯......事情变得复杂......所以......什么可以是生产环境的有效设置吗?你如何处理它?你有什么建议?

0 投票
1 回答
80 浏览

python - scrapyd MailSender 不工作

我写了这个函数:

在初始化函数中激活,如下所示:

当我手动启动蜘蛛时效果很好,但是一旦在 python 鸡蛋中使用 scrapyd 启动它,我就不再收到电子邮件了。我在scrapyd doc中没有找到任何关于电子邮件配置的信息,也没有找到可以给我线索的日志。已经实现这一目标的任何人都可以提供反馈吗?谢谢 !

0 投票
1 回答
27 浏览

web-scraping - scrapy 0.24.0 中有哪些新的增强功能?

从scrapy 0.24.0 中添加、删除的功能有哪些?它与早期版本有何不同?

0 投票
1 回答
726 浏览

python - 时间安排 - Scrapy

在 Scarpy 中,有没有办法安排我们的蜘蛛在某个时间运行?

0 投票
1 回答
1195 浏览

mongodb - pymongo.errors.ConnectionFailure:从运行scrapyd的ubuntu ec2实例超时

所以......我在我的 ubuntu ec2 实例上运行了scrapyd 在关注这篇文章之后:http ://www.dataisbeautiful.io/deploying-scrapy-ec2/

但是我想我无法让 pymongo 连接到我的 MongoLabs mongo 数据库,因为 ubuntu ec2 scrapyd 日志说

在后端方面,我是一个真正的菜鸟,所以我真的不知道是什么导致了这个问题。当我从 localhost 运行我的 scrapyd 时,它工作得很好,并将抓取的数据保存到我的 MongoLabs 数据库中。对于在 ec2 实例上运行的 scrapyd,我可以通过在端口 6800(相当于 scrapyd 的 localhost:6800)处输入 ec2 地址来访问 scrapyd gui,仅此而已。冰壶

回馈 'status': 'okay' 我可以看到作业出现,但没有生成任何项目,日志仅显示

有人对我的问题有一些有用的见解吗?谢谢!

编辑:添加了连接代码。设置.py

Scrapy 的 Pipeline.py

0 投票
1 回答
1139 浏览

amazon-ec2 - AWS EC2 上的 Scrapy:在哪里写项目?

我的本地机器上有一个工作蜘蛛,它将项目写入本地 postgres 数据库。

我现在正试图在 EC2 实例上通过 scrapyd 运行相同的蜘蛛。这显然行不通,因为代码(模型、管道、设置文件)引用了我本地机器上的数据库。

我应该实施哪些调整来完成这项工作?

0 投票
2 回答
276 浏览

python-2.7 - scrapyd:卷曲错误`未知或损坏的鸡蛋`

我正在尝试更新我的蜘蛛版本,我写道:

curl http://localhost:6800/addversion.json -d project=comicvn -d spider=comicvn2 -d version= 141667324 -d egg=14116674324.egg

它犯了错误:{"status"": error,"message": "ValuesError: Unkow or corrupt egg"

什么是鸡蛋参数?我应该为它设置什么值?非常感谢 !

我通过使用命令创建了“14116674324.egg” bdist_egg。之后,它14116674324.egg在路径中创建了一个文件:C:\Python27\Scripts\eggs\comicvn2,所以我将此文件复制到我的项目的根文件夹中,例如C:\Python27\Scripts\comicvn2.

0 投票
2 回答
613 浏览

web-scraping - where's data store after deploy spider scrapyd python?

i deployed and scheduled my spider on http://localhost:6800/ success, but where's data of item store ? How could i get them ?

thanks so much !