问题标签 [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
515 浏览

python - 一个接一个地运行多个蜘蛛

我正在使用 Scrapy 框架让蜘蛛爬过一些网页。基本上,我想要的是抓取网页并将它们保存到数据库中。我每个网页有一个蜘蛛。但是我无法立即运行这些蜘蛛,以至于蜘蛛在另一只蜘蛛完成爬行之后开始爬行。怎样才能做到这一点?scrapyd 是解决方案吗?

0 投票
4 回答
4024 浏览

python - windows scrapyd-deploy 无法识别

我已经像这样安装了scrapyd

我想使用scrapyd-deploy

当我输入scrapyd

我在cmd中遇到了这个异常:

'scrapyd' 不是内部或外部命令、可运行程序或批处理文件。

0 投票
1 回答
699 浏览

python - 在scrapy云上部署scrapy项目时出错

我在 Python 2.7 上使用了 scrapy 0.20。

我想在scrapy云上部署我的scrapy项目

  1. 我用简单的蜘蛛开发了我的scrapy项目。
  2. 导航到我的scrapy项目文件夹。
  3. scrapy deploy scrapyd -d koooraspider在cmd上输入。koooraspider我的项目名称在哪里,scrapyd是我的目标。

我收到以下错误:

scrapy.cfg

笔记

当我执行前面的步骤时,已经生成了project.egg-info文件夹、build文件夹和脚本。setup.py

任何帮助将不胜感激。

0 投票
1 回答
1824 浏览

scrapy - Scrapyd找不到项目名称

当我尝试在 scrapyd 上运行现有的 scrapy 项目时出现错误。

我有一个工作的scrapy项目(url_finder)和一个用于测试目的的工作蜘蛛(test_ip_spider_1x),它只是下载whatismyip.com。

我成功安装了scrapyd(使用apt-get),现在我想在scrapyd 上运行蜘蛛。所以我执行:

这将返回:

这似乎表明该项目存在问题。但是,当我执行时:scrapy crawl test_ip_spider_1x 一切运行良好。当我在 Web 界面中检查 scrapyd 日志时,我得到的是:

有任何想法吗?

0 投票
1 回答
242 浏览

python - 在scrapy中的多个蜘蛛之间共享访问过的网址?

我正在使用scrapyd 在同一域中运行多个蜘蛛作为作业。我假设scrapy有一个访问过的url的哈希表,它在爬行时与其他蜘蛛共享和协调。当我创建同一个蜘蛛的实例时

它会爬取相同的 url,并且正在抓取重复的数据。以前有人处理过类似的问题吗?

0 投票
1 回答
825 浏览

scrapyd - 使用 SCRAPYD 调度蜘蛛

我正在尝试安排蜘蛛运行,我写道:

返回:

在 scrapyd.log 我看到:

任何人都可以帮助我吗?

问候

丹尼斯

0 投票
2 回答
2906 浏览

python - Scrapy - 在蜘蛛内部加载一个带有相对路径的 yaml 文件

我正在尝试部署我的scrapy crawlers,但问题是我有一个yaml file我试图从内部加载的spider,这在从 shell 加载蜘蛛时有效:scrapy crawl <spider-name>。但是当spider部署在里面时scrapyd,yaml文件的路径必须是absolute.

有没有办法使用 a relative pathyaml file即使蜘蛛被部署了scrapyd

PS:部署
在: spiderscrapyd

yaml文件加载 :

0 投票
1 回答
1199 浏览

python-2.7 - 在heroku上部署scrapy项目

我有一个scrapy spider项目,它会删除一些网站并获取我上面的数据。我的蜘蛛产生两个 JSON 文件,其中存储了所有被抓取的数据。

现在,我有一个烧瓶网络服务,它使用上述两个 JSON 文件来满足用户的请求。

我已经在 heroku 上部署了这个烧瓶网络服务并且工作正常。

我的问题是我每天在本地机器上运行scrapy spider,然后手动更新heroku 上的两个JSON 文件。

我想自动化这个scrapy项目应该每天运行的过程,并且产生的JSON文件应该自动更新。

我在这里找到的解决方案是,如果将 scrapy 蜘蛛和 Web 服务部署为单个项目,它将按我的意愿工作....但我不确定是否可以完成。

我搜索了有关部署scrapy项目的主题,发现了scrapyd甚至scrapy-heroku,但我不知道它们将如何提供帮助或我应该如何使用它们来满足我的特定要求。

0 投票
1 回答
514 浏览

python - 使用 Twisted Server 部署 Scrapy Spiders

我有+20 scrapy crawlers我想deploy从浏览器手动webpage。为了实现这一点,我创建了一个twisted server在 shell 进程中执行以下命令的简单程序:

这些命令在twistedusing中执行utils.getProcessOutput(scriptname)。前面的两个命令script作为参数在给定的内部。

尝试使用 执行扭曲服务器时twistd -y <server.py>,会出现以下错误:[Failure instance: Traceback (failure with no frames): : got stderr: 'Packing version 1399464111\n' ].

这是twisted服务器的代码:

是什么导致了这个错误(它不是很冗长)?

0 投票
1 回答
213 浏览

python - scrapyd pool_intervel 调度蜘蛛

我想让我的蜘蛛每三个小时启动一次。

我有一个位于c:/scrapyd文件夹中的scrapy confinguration 文件。

我改变poll_interval100

蜘蛛工作,但它没有每 100 秒重复一次。

请问该怎么做?