问题标签 [scrapy-pipeline]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

201 问题

0 投票

1 回答

157 浏览

python-2.7 - 用 scrapy 喂 Rethinkdb

我正在寻找一个简单的教程，解释如何从 scrapy 将项目写入 Rethinkdb。可以在此处找到 MongoDB 的等效项。

2016-04-13T13:34:53.587

0 投票

0 回答

416 浏览

python - Scrapinghub mySQL 管道

我正在尝试创建一个将抓取的数据导出到 mySQL 数据库的 Scrapy Pipeline。我写了我的脚本（pipeline.py）：

我想把这一切变成一个鸡蛋，这样它就可以上传到 Scrapinghub。我该怎么办？我写了一个 setup.py 文件并尝试打包它，但我总是收到一个错误，它找不到包。

python mysql python-2.7 scrapy scrapy-pipeline

2016-04-19T16:27:48.847

0 投票

1 回答

393 浏览

scrapy - Scrapy：改变媒体管道下载优先级：如何在抓取结束时延迟媒体文件下载？

http://doc.scrapy.org/en/latest/topics/media-pipeline.html

当项目到达 FilesPipeline 时，file_urls 字段中的 URL 将使用标准的 Scrapy 调度程序和下载程序（这意味着调度程序和下载程序中间件被重用）安排下载，但优先级更高，在其他页面被抓取之前处理它们。该项目在该特定管道阶段保持“锁定”，直到文件完成下载（或由于某种原因失败）。

我想做完全相反的事情：首先刮掉所有 HTML url，然后一次下载所有媒体文件。我怎样才能做到这一点？

scrapy scrapy-spider scrapy-pipeline

2016-04-22T16:22:27.303

0 投票

1 回答

152 浏览

scrapy - 无法从终端覆盖设置 ITEM_PIPELINE

在我的 settings.py 中，我有：

而且效果很好。但有时我想在没有任何管道的情况下运行蜘蛛。当我跑

我收到此错误：

如何在没有管道的情况下运行蜘蛛？

到目前为止，我尝试过：

其他组合查看文档http://doc.scrapy.org/en/latest/topics/settings.html

希望你能帮助我。谢谢。

scrapy scrapy-spider scrapyd scrapy-pipeline

2016-05-27T15:48:08.367

0 投票

1 回答

441 浏览

web-scraping - 如何使用scrapy将抓取的网页保存在内存中

我能够使用以下scrapy脚本在网络上爬行

这是日志

但我想以 html 的形式保存所有已抓取的网页？我已尝试按照http://doc.scrapy.org/en/latest/intro/tutorial.html中给出的方式保存已抓取的网页，但这不适用于我。有人可以用一些代码快照指导我，以便我可以实现这一目标。

web-scraping scrapy scrapy-spider scrapy-pipeline

2016-06-09T11:02:11.687

0 投票

2 回答

427 浏览

csv - Scrapy返回空白csv

这是我第一次使用scrapy，我正在尝试使用管道将我需要的信息放入一个csv文件中。一切似乎都运行良好，直到我尝试从多个页面中抓取并开始返回一个空白的 csv 文件。我认为问题出在蜘蛛身上（因为当我在那里进行更改时它停止正常工作），但我正在建立管道以防万一那里也有问题。

这是我的蜘蛛：

这是我的管道：

任何帮助将非常感激。

csv scrapy scrapy-spider scrapy-pipeline

2016-07-11T00:54:15.903

0 投票

0 回答

314 浏览

python - 刮擦管道无法工作

我在同一个项目中编写了几个蜘蛛，它们调用同一个管道类。

在这样的管道代码中：

它有效，在我让我的新 spiedrX 调用它之前。

我的 spiderX 调用的代码就像其他蜘蛛调用一样：

然后它不调用管道，但其他人可以，我不知道为什么。

当我运行spiderX时，有一行scrapy输出：

这意味着我猜管道可以工作

任何建议将不胜感激。

编辑：只是我的新spiderX不能调用管道，其他人可以。

python scrapy scrapy-pipeline

2016-07-17T14:34:28.987

0 投票

1 回答

3592 浏览

scrapy - Scrapy，在管道中发出http请求

假设我有一个看起来像这样的刮擦物品

在管道中，我想向 url 发出 GET 请求并检查一些标头，例如 content_type 和 status。当标题不满足某些条件时，我想删除该项目。喜欢

使用管道是不可能闻到这样的气味的。你怎么看？任何想法如何实现这一目标？

蜘蛛：

scrapy scrapy-pipeline

2016-07-19T19:33:57.640

0 投票

1 回答

262 浏览

scrapy - Scrapy：从 HTML 而非 URL 中抓取项目

我遇到了需要爬行和刮擦的 Scrapy。但根据应用要求，我决定不采用 Monolithic 方法。一切都应该以服务为基础。所以我决定设计两个服务。

获取所有 url 和 html。上传到s3。
从 html 中抓取项目

为什么？很简单，今天我决定把它刮掉10个，明天我要刮20个（申请要求）。在这种情况下，我不想再次抓取 url 和 html，因为 html 将是相同的（我只抓取博客站点，其中只添加评论并且每个 url 的内容保持不变）。

第一项服务将基于 Scrapy。如果我们可以提供 html 而不是 start url，或者我们必须使用 BeatifulSoap 或其他一些抓取库，我正在寻找是否可以使用相同的抓取。

scrapy scrapyd scrapy-pipeline scrapy-shell

2016-07-22T09:31:05.003

0 投票

1 回答

1099 浏览

django - Scrapy 图像管道不下载图像

我正在尝试使用 Scrapy Framework 和 djano-item 设置从网页下载图像。我想我已经完成了doc中的所有操作，但是在调用 scrapy crawl 之后，我的日志看起来像这样：

抓取日志

我找不到任何关于出了什么问题的信息，但图像字段为空且目录不包含任何图像。

这是我的模型

这就是我从蜘蛛到图像管道的方式

最后这是我的 Scrapy 项目的 settings.py：

预先感谢您的帮助

编辑：

我使用了来自 doc 的自定义图像管道，看起来像这样，

在 get_media_requests 它创建对我的 Url 的请求，但在 item_completed 结果参数中我得到这样的东西：[(False, <twisted.python.failure.Failure scrapy.pipelines.files.FileException: >)] 我仍然不知道如何修复它。问题是否可能是由使用 https 的地址引用引起的？

django scrapy scrapy-pipeline

2016-07-25T19:42:10.897

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapy-pipeline]

Reference