问题标签 [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
905 浏览

python - 无法部署scrapy项目

突然我的scrapy部署开始失败:

谁能告诉我发生了什么...

我在部署期间删除了所有由scrapy创建的构建文件夹和其他文件夹现在它给了我这个错误:

但是我在蜘蛛文件夹中有 30 只蜘蛛.....有人可以帮我吗......

0 投票
1 回答
1642 浏览

python - How to set scrapy IMAGES_STORE relative path

I am trying to set IMAGES_STORE as a relative path but i am getting error and if i am specifying IMAGES_STORE as a Full path it is working fine /home/vaibhav/scrapyprog/comparison/eScraperInterface/images

Error i am getting is at link Actually it is giving me RuntimeError: OSError: [Errno 20] Not a directory: '/tmp/eScraper-1371463750-Lm8HLh.egg/images' error but if i set Full IMAGE_STORE path it is working fine can someone tell me how can i specify relative path...as i need to deploy this project at various system ...that's why i need relative path....

My project structure:

0 投票
1 回答
1002 浏览

web-scraping - Scrapy 管理动态蜘蛛

我正在构建一个项目,我需要一个网络爬虫来爬取不同网页的列表。此列表可以随时更改。如何用scrapy最好地实现这一点?我应该为所有网站创建一个蜘蛛还是动态创建蜘蛛?

我已经阅读了有关scrapyd的内容,我想动态创建蜘蛛是最好的方法。我需要一个关于如何实现它的提示。

0 投票
0 回答
366 浏览

python - 抓取的项目没有保存到数据库中

我的scrapy没有将数据保存到数据库中。请建议。它正在抓取数据,但没有将这些数据添加到数据库中..请查看代码并提出建议,..

我的 spider.py 文件

还有我的 pipelines.py 文件::

我无法将数据保存到我的数据库中,请帮助

0 投票
1 回答
344 浏览

python - MySQL 不保存正在抓取的数据

我使用 Scrapy 做了一个小项目。问题是我的scrapy正在抓取页面和抓取数据。但它没有被保存到我的数据库中。我使用 MySQL 作为我的数据库。

我想我的 pipelines.py 文件中遗漏了一些东西

请指导我将抓取的数据保存在我的数据库中。

0 投票
1 回答
1661 浏览

python - 运行scrapy spider时Scrapyd初始化错误

我正在尝试部署一个带有四个蜘蛛的爬虫。其中一个蜘蛛使用 XMLFeedSpider 并在 shell 和 scrapyd 中运行良好,但其他蜘蛛使用 BaseSpider 并且在 scrapyd 中运行时都会出现此错误,但在 shell 中运行良好

TypeError: init () got an unexpected keyword argument '_job'

从我读到的内容来看,这表明我的蜘蛛中的 init 函数存在问题,但我似乎无法解决这个问题。我不需要初始化函数,如果我完全删除它,我仍然会收到错误!

我的蜘蛛看起来像这样

我可以在蜘蛛中使用一个初始化函数,但我得到了完全相同的错误。

为什么会发生这种情况,我该如何解决?

0 投票
2 回答
2157 浏览

python - scrapy项目的通用蜘蛛

我正在为多个网站创建通用蜘蛛(scrapy spider)。下面是我的项目目录结构。

常见的.py

蜘蛛.py

stackoverflow_com.py

从上面的脚本中,我不想接触 spider.py(假设所有网站都具有相同的结构,所以我可以将 spider.py 用于所有蜘蛛)

我只想为每个网站创建与 stackoverflow_com.py 相同的新蜘蛛,并且我想调用 spider.py 进行爬行过程。

你能告诉我我的代码有什么问题吗?它显示下面的错误消息

output1:如果我运行“scrapy crawl stackoverflow_com”,它会显示在错误消息下方

output2:如果我运行“scrapy crawl generic_spider”,它会显示在错误消息下方

提前谢谢你:)

0 投票
1 回答
1493 浏览

python - 如何安装最新的 Scrapyd 包?

我注意到scrapy上周(2013-08-09)发布了最新的稳定版本。将scrapy更新到0.18版本后,之前安装scrapyd-0.17的被apt-get(Ubuntu 12.04)自动卸载。有scrapyd-0.18吗?如何安装它?

0 投票
1 回答
2734 浏览

python - 学习python并尝试实现scrapy ..得到这个错误

我正在阅读scrapy教程http://doc.scrapy.org/en/latest/intro/tutorial.html ,我一直遵循它,直到我运行了这个命令

它给了我一个错误的输出

我对 python 不是很熟悉,我不确定它在抱怨什么

这是我的 domz_spider.py 文件

这是目录结构

这是settings.py文件

0 投票
1 回答
4419 浏览

ruby-on-rails - 在 `escape': 未定义的方法 `gsub' for #(无方法错误)

嗨,我正在尝试抓取网页“获取链接”转到该链接并“抓取它”。

我有以下错误