问题标签 [scrapyd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

350 问题

0 投票

1 回答

905 浏览

python - 无法部署scrapy项目

突然我的scrapy部署开始失败：

谁能告诉我发生了什么...

我在部署期间删除了所有由scrapy创建的构建文件夹和其他文件夹现在它给了我这个错误：

但是我在蜘蛛文件夹中有 30 只蜘蛛.....有人可以帮我吗......

python scrapy scrapyd

2013-06-27T10:09:41.133

0 投票

1 回答

1642 浏览

python - How to set scrapy IMAGES_STORE relative path

I am trying to set IMAGES_STORE as a relative path but i am getting error and if i am specifying IMAGES_STORE as a Full path it is working fine /home/vaibhav/scrapyprog/comparison/eScraperInterface/images

Error i am getting is at link Actually it is giving me RuntimeError: OSError: [Errno 20] Not a directory: '/tmp/eScraper-1371463750-Lm8HLh.egg/images' error but if i set Full IMAGE_STORE path it is working fine can someone tell me how can i specify relative path...as i need to deploy this project at various system ...that's why i need relative path....

My project structure:

python scrapy scrapyd

2013-06-28T08:03:57.390

0 投票

1 回答

1002 浏览

web-scraping - Scrapy 管理动态蜘蛛

我正在构建一个项目，我需要一个网络爬虫来爬取不同网页的列表。此列表可以随时更改。如何用scrapy最好地实现这一点？我应该为所有网站创建一个蜘蛛还是动态创建蜘蛛？

我已经阅读了有关scrapyd的内容，我想动态创建蜘蛛是最好的方法。我需要一个关于如何实现它的提示。

web-scraping scrapy scrapyd

2013-07-02T09:17:48.017

0 投票

0 回答

366 浏览

python - 抓取的项目没有保存到数据库中

我的scrapy没有将数据保存到数据库中。请建议。它正在抓取数据，但没有将这些数据添加到数据库中..请查看代码并提出建议，..

我的 spider.py 文件

还有我的 pipelines.py 文件::

我无法将数据保存到我的数据库中，请帮助

python web-scraping scrapy scrapyd

2013-07-24T19:21:11.690

0 投票

1 回答

344 浏览

python - MySQL 不保存正在抓取的数据

我使用 Scrapy 做了一个小项目。问题是我的scrapy正在抓取页面和抓取数据。但它没有被保存到我的数据库中。我使用 MySQL 作为我的数据库。

我想我的 pipelines.py 文件中遗漏了一些东西

请指导我将抓取的数据保存在我的数据库中。

python web-scraping scrapy web-crawler scrapyd

2013-07-29T21:03:38.510

0 投票

1 回答

1661 浏览

python - 运行scrapy spider时Scrapyd初始化错误

我正在尝试部署一个带有四个蜘蛛的爬虫。其中一个蜘蛛使用 XMLFeedSpider 并在 shell 和 scrapyd 中运行良好，但其他蜘蛛使用 BaseSpider 并且在 scrapyd 中运行时都会出现此错误，但在 shell 中运行良好

TypeError: init () got an unexpected keyword argument '_job'

从我读到的内容来看，这表明我的蜘蛛中的 init 函数存在问题，但我似乎无法解决这个问题。我不需要初始化函数，如果我完全删除它，我仍然会收到错误！

我的蜘蛛看起来像这样

我可以在蜘蛛中使用一个初始化函数，但我得到了完全相同的错误。

为什么会发生这种情况，我该如何解决？

python python-2.7 scrapy scrapyd

2013-07-31T16:08:30.137

0 投票

2 回答

2157 浏览

python - scrapy项目的通用蜘蛛

我正在为多个网站创建通用蜘蛛（scrapy spider）。下面是我的项目目录结构。

常见的.py

蜘蛛.py

stackoverflow_com.py

从上面的脚本中，我不想接触 spider.py（假设所有网站都具有相同的结构，所以我可以将 spider.py 用于所有蜘蛛）

我只想为每个网站创建与 stackoverflow_com.py 相同的新蜘蛛，并且我想调用 spider.py 进行爬行过程。

你能告诉我我的代码有什么问题吗？它显示下面的错误消息

output1：如果我运行“scrapy crawl stackoverflow_com”，它会显示在错误消息下方

output2：如果我运行“scrapy crawl generic_spider”，它会显示在错误消息下方

提前谢谢你:)

python python-2.7 web-crawler scrapy scrapyd

2013-08-05T06:42:27.993

0 投票

1 回答

1493 浏览

python - 如何安装最新的 Scrapyd 包？

我注意到scrapy上周（2013-08-09）发布了最新的稳定版本。将scrapy更新到0.18版本后，之前安装scrapyd-0.17的被apt-get（Ubuntu 12.04）自动卸载。有scrapyd-0.18吗？如何安装它？

python ubuntu-12.04 scrapy apt-get scrapyd

2013-08-12T02:06:24.017

0 投票

1 回答

2734 浏览

python - 学习python并尝试实现scrapy ..得到这个错误

我正在阅读scrapy教程http://doc.scrapy.org/en/latest/intro/tutorial.html ，我一直遵循它，直到我运行了这个命令

它给了我一个错误的输出

我对 python 不是很熟悉，我不确定它在抱怨什么

这是我的 domz_spider.py 文件

这是目录结构

这是settings.py文件

python scrapy scrapyd

2013-08-25T20:16:15.057

0 投票

1 回答

4419 浏览

ruby-on-rails - 在 `escape': 未定义的方法 `gsub' for #（无方法错误）

嗨，我正在尝试抓取网页“获取链接”转到该链接并“抓取它”。

我有以下错误

ruby-on-rails web-scraping scrapyd

2013-08-27T10:12:58.290

1 2 3 4 5 6 7 8 9 10