问题标签 [scrapyd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

350 问题

0 投票

1 回答

877 浏览

python-2.7 - scrapy爬虫占用大量CPU

我有多个蜘蛛在多个实例（4）中并行运行。他们都使用了几乎 100% 的 cpu 使用率。

我已经使用scrapyd部署了它们。尝试将 max_concurrent_requests、CONCURRENT_REQUESTS、CONCURRENT_REQUESTS_PER_DOMAIN 等 scrapyd 设置更改为最小值，但没有成功。

我正在使用 python 2.7.5 和 scrapy 0.24

我搜索了解决方案并找到了这个页面

https://groups.google.com/forum/#!topic/scrapy-users/Rgq07ldcoPs

我无法得到他们的解决方案

提前致谢

2014-10-15T21:28:50.773

0 投票

2 回答

942 浏览

python - 部署scrapy项目时出错

我从 ubuntu repos 安装了 scrapy 0.24、scrapyd、scrapyd-deploy 软件包。当我尝试部署我的项目时：

/tmp/scrapydeploy-jmYE9g/stderr 内容：

有任何想法吗？

python scrapy web-crawler scrapyd

2014-10-24T09:56:56.407

0 投票

1 回答

1309 浏览

python - Scrapy + Django 在生产中

我正在编写一个使用 Scrapy 的 Django Web 应用程序，并且在本地运行良好，但我想知道如何设置一个生产环境，让我的蜘蛛定期自动启动（我的意思是，一旦蜘蛛完成它的工作，它就会重新启动一段时间后……例如 24 小时后）。目前我使用自定义 Django 命令启动我的蜘蛛，其主要目标是允许使用 Django 的 ORM 来存储抓取的项目，所以我运行：

结果存储在我的 Postgres 数据库中。我安装了scrapyd，因为它似乎是在生产中运行 scrapy 的首选方式，但不幸的是，如果不编写猴子补丁（我想避免），我就无法使用它，因为它使用 JSON 作为其 Web 服务 API 和我得到“modelX 不是 json 可序列化”异常。我查看了django-dynamic-scraper，但它似乎不像 Scrapy 那样灵活和可定制，事实上在他们说的文档中：

由于它简化了事情，DDS 不适用于所有类型的抓取工具，但它非常适合定期抓取带有更新项目列表的网站的相对常见情况

我也想过使用 crontab 来安排我的蜘蛛......但是我应该在什么时间间隔运行我的蜘蛛？如果我的 EC2 实例（我将使用 amazon webservices 来托管我的代码）需要重新启动，我必须手动重新运行我的所有蜘蛛......嗯......事情变得复杂......所以......什么可以是生产环境的有效设置吗？你如何处理它？你有什么建议？

python json django scrapy scrapyd

2014-10-27T10:46:49.707

0 投票

1 回答

80 浏览

python - scrapyd MailSender 不工作

我写了这个函数：

在初始化函数中激活，如下所示：

当我手动启动蜘蛛时效果很好，但是一旦在 python 鸡蛋中使用 scrapyd 启动它，我就不再收到电子邮件了。我在scrapyd doc中没有找到任何关于电子邮件配置的信息，也没有找到可以给我线索的日志。已经实现这一目标的任何人都可以提供反馈吗？谢谢！

python email scrapyd

2014-10-31T08:58:54.137

0 投票

1 回答

27 浏览

web-scraping - scrapy 0.24.0 中有哪些新的增强功能？

从scrapy 0.24.0 中添加、删除的功能有哪些？它与早期版本有何不同？

web-scraping scrapy scrapyd

2014-11-04T10:25:46.300

0 投票

1 回答

726 浏览

python - 时间安排 - Scrapy

在 Scarpy 中，有没有办法安排我们的蜘蛛在某个时间运行？

python web-scraping scrapy screen-scraping scrapyd

2014-11-13T14:06:11.410

0 投票

1 回答

1195 浏览

mongodb - pymongo.errors.ConnectionFailure：从运行scrapyd的ubuntu ec2实例超时

所以......我在我的 ubuntu ec2 实例上运行了scrapyd 在关注这篇文章之后：http ://www.dataisbeautiful.io/deploying-scrapy-ec2/

但是我想我无法让 pymongo 连接到我的 MongoLabs mongo 数据库，因为 ubuntu ec2 scrapyd 日志说

在后端方面，我是一个真正的菜鸟，所以我真的不知道是什么导致了这个问题。当我从 localhost 运行我的 scrapyd 时，它工作得很好，并将抓取的数据保存到我的 MongoLabs 数据库中。对于在 ec2 实例上运行的 scrapyd，我可以通过在端口 6800（相当于 scrapyd 的 localhost:6800）处输入 ec2 地址来访问 scrapyd gui，仅此而已。冰壶

回馈 'status': 'okay' 我可以看到作业出现，但没有生成任何项目，日志仅显示

有人对我的问题有一些有用的见解吗？谢谢！

编辑：添加了连接代码。设置.py

Scrapy 的 Pipeline.py

mongodb amazon-ec2 scrapy pymongo scrapyd

2014-11-17T02:33:21.773

0 投票

1 回答

1139 浏览

amazon-ec2 - AWS EC2 上的 Scrapy：在哪里写项目？

我的本地机器上有一个工作蜘蛛，它将项目写入本地 postgres 数据库。

我现在正试图在 EC2 实例上通过 scrapyd 运行相同的蜘蛛。这显然行不通，因为代码（模型、管道、设置文件）引用了我本地机器上的数据库。

我应该实施哪些调整来完成这项工作？

amazon-ec2 scrapy scrapyd

2014-11-18T23:25:40.110

0 投票

2 回答

276 浏览

python-2.7 - scrapyd：卷曲错误`未知或损坏的鸡蛋`

我正在尝试更新我的蜘蛛版本，我写道：

curl http://localhost:6800/addversion.json -d project=comicvn -d spider=comicvn2 -d version= 141667324 -d egg=14116674324.egg

它犯了错误：{"status"": error,"message": "ValuesError: Unkow or corrupt egg"

什么是鸡蛋参数？我应该为它设置什么值？非常感谢！

我通过使用命令创建了“14116674324.egg” bdist_egg。之后，它14116674324.egg在路径中创建了一个文件：C:\Python27\Scripts\eggs\comicvn2，所以我将此文件复制到我的项目的根文件夹中，例如C:\Python27\Scripts\comicvn2.

python-2.7 scrapyd

2014-11-22T18:02:14.457

0 投票

2 回答

613 浏览

web-scraping - where's data store after deploy spider scrapyd python?

i deployed and scheduled my spider on http://localhost:6800/ success, but where's data of item store ? How could i get them ?

thanks so much !

web-scraping scrapy scrapyd

2014-11-22T19:35:21.023

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapyd]

Reference