问题标签 [scrapy-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
157 浏览

python-2.7 - 用 scrapy 喂 Rethinkdb

我正在寻找一个简单的教程,解释如何从 scrapy 将项目写入 Rethinkdb。可以在此处找到 MongoDB 的等效项。

0 投票
0 回答
416 浏览

python - Scrapinghub mySQL 管道

我正在尝试创建一个将抓取的数据导出到 mySQL 数据库的 Scrapy Pipeline。我写了我的脚本(pipeline.py):

我想把这一切变成一个鸡蛋,这样它就可以上传到 Scrapinghub。我该怎么办?我写了一个 setup.py 文件并尝试打包它,但我总是收到一个错误,它找不到包。

0 投票
1 回答
393 浏览

scrapy - Scrapy:改变媒体管道下载优先级:如何在抓取结束时延迟媒体文件下载?

http://doc.scrapy.org/en/latest/topics/media-pipeline.html

当项目到达 FilesPipeline 时,file_urls 字段中的 URL 将使用标准的 Scrapy 调度程序和下载程序(这意味着调度程序和下载程序中间件被重用)安排下载,但优先级更高,在其他页面被抓取之前处理它们。该项目在该特定管道阶段保持“锁定”,直到文件完成下载(或由于某种原因失败)。

我想做完全相反的事情:首先刮掉所有 HTML url,然后一次下载所有媒体文件。我怎样才能做到这一点?

0 投票
1 回答
152 浏览

scrapy - 无法从终端覆盖设置 ITEM_PIPELINE

在我的 settings.py 中,我有:

而且效果很好。但有时我想在没有任何管道的情况下运行蜘蛛。当我跑

我收到此错误:

如何在没有管道的情况下运行蜘蛛?

到目前为止,我尝试过:

其他组合查看文档http://doc.scrapy.org/en/latest/topics/settings.html

希望你能帮助我。谢谢。

0 投票
1 回答
441 浏览

web-scraping - 如何使用scrapy将抓取的网页保存在内存中

我能够使用以下scrapy脚本在网络上爬行

这是日志

但我想以 html 的形式保存所有已抓取的网页?我已尝试按照http://doc.scrapy.org/en/latest/intro/tutorial.html中给出的方式保存已抓取的网页,但这不适用于我。有人可以用一些代码快照指导我,以便我可以实现这一目标。

0 投票
2 回答
427 浏览

csv - Scrapy返回空白csv

这是我第一次使用scrapy,我正在尝试使用管道将我需要的信息放入一个csv文件中。一切似乎都运行良好,直到我尝试从多个页面中抓取并开始返回一个空白的 csv 文件。我认为问题出在蜘蛛身上(因为当我在那里进行更改时它停止正常工作),但我正在建立管道以防万一那里也有问题。

这是我的蜘蛛:

这是我的管道:

任何帮助将非常感激。

0 投票
0 回答
314 浏览

python - 刮擦管道无法工作

我在同一个项目中编写了几个蜘蛛,它们调用同一个管道类。

在这样的管道代码中:

它有效,在我让我的新 spiedrX 调用它之前。

我的 spiderX 调用的代码就像其他蜘蛛调用一样:

然后它不调用管道,但其他人可以,我不知道为什么。

当我运行spiderX时,有一行scrapy输出:

这意味着我猜管道可以工作

任何建议将不胜感激。

编辑:只是我的新spiderX不能调用管道,其他人可以。

0 投票
1 回答
3592 浏览

scrapy - Scrapy,在管道中发出http请求

假设我有一个看起来像这样的刮擦物品

在管道中,我想向 url 发出 GET 请求并检查一些标头,例如 content_type 和 status。当标题不满足某些条件时,我想删除该项目。喜欢

使用管道是不可能闻到这样的气味的。你怎么看?任何想法如何实现这一目标?

蜘蛛:

0 投票
1 回答
262 浏览

scrapy - Scrapy:从 HTML 而非 URL 中抓取项目

我遇到了需要爬行和刮擦的 Scrapy。但根据应用要求,我决定不采用 Monolithic 方法。一切都应该以服务为基础。所以我决定设计两个服务。

  1. 获取所有 url 和 html。上传到s3。
  2. 从 html 中抓取项目

为什么?很简单,今天我决定把它刮掉10个,明天我要刮20个(申请要求)。在这种情况下,我不想再次抓取 url 和 html,因为 html 将是相同的(我只抓取博客站点,其中只添加评论并且每个 url 的内容保持不变)。

第一项服务将基于 Scrapy。如果我们可以提供 html 而不是 start url,或者我们必须使用 BeatifulSoap 或其他一些抓取库,我正在寻找是否可以使用相同的抓取。

0 投票
1 回答
1099 浏览

django - Scrapy 图像管道不下载图像

我正在尝试使用 Scrapy Framework 和 djano-item 设置从网页下载图像。我想我已经完成了doc中的所有操作, 但是在调用 scrapy crawl 之后,我的日志看起来像这样:

抓取日志

我找不到任何关于出了什么问题的信息,但图像字段为空且目录不包含任何图像。

这是我的模型

这就是我从蜘蛛到图像管道的方式

最后这是我的 Scrapy 项目的 settings.py:

预先感谢您的帮助

编辑:

我使用了来自 doc 的自定义图像管道,看起来像这样,

在 get_media_requests 它创建对我的 Url 的请求,但在 item_completed 结果参数中我得到这样的东西:[(False, <twisted.python.failure.Failure scrapy.pipelines.files.FileException: >)] 我仍然不知道如何修复它。问题是否可能是由使用 https 的地址引用引起的?