问题标签 [scrapy-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - 用 scrapy 喂 Rethinkdb
我正在寻找一个简单的教程,解释如何从 scrapy 将项目写入 Rethinkdb。可以在此处找到 MongoDB 的等效项。
python - Scrapinghub mySQL 管道
我正在尝试创建一个将抓取的数据导出到 mySQL 数据库的 Scrapy Pipeline。我写了我的脚本(pipeline.py):
我想把这一切变成一个鸡蛋,这样它就可以上传到 Scrapinghub。我该怎么办?我写了一个 setup.py 文件并尝试打包它,但我总是收到一个错误,它找不到包。
scrapy - Scrapy:改变媒体管道下载优先级:如何在抓取结束时延迟媒体文件下载?
http://doc.scrapy.org/en/latest/topics/media-pipeline.html
当项目到达 FilesPipeline 时,file_urls 字段中的 URL 将使用标准的 Scrapy 调度程序和下载程序(这意味着调度程序和下载程序中间件被重用)安排下载,但优先级更高,在其他页面被抓取之前处理它们。该项目在该特定管道阶段保持“锁定”,直到文件完成下载(或由于某种原因失败)。
我想做完全相反的事情:首先刮掉所有 HTML url,然后一次下载所有媒体文件。我怎样才能做到这一点?
scrapy - 无法从终端覆盖设置 ITEM_PIPELINE
在我的 settings.py 中,我有:
而且效果很好。但有时我想在没有任何管道的情况下运行蜘蛛。当我跑
我收到此错误:
如何在没有管道的情况下运行蜘蛛?
到目前为止,我尝试过:
其他组合查看文档http://doc.scrapy.org/en/latest/topics/settings.html
希望你能帮助我。谢谢。
web-scraping - 如何使用scrapy将抓取的网页保存在内存中
我能够使用以下scrapy脚本在网络上爬行
这是日志
但我想以 html 的形式保存所有已抓取的网页?我已尝试按照http://doc.scrapy.org/en/latest/intro/tutorial.html中给出的方式保存已抓取的网页,但这不适用于我。有人可以用一些代码快照指导我,以便我可以实现这一目标。
csv - Scrapy返回空白csv
这是我第一次使用scrapy,我正在尝试使用管道将我需要的信息放入一个csv文件中。一切似乎都运行良好,直到我尝试从多个页面中抓取并开始返回一个空白的 csv 文件。我认为问题出在蜘蛛身上(因为当我在那里进行更改时它停止正常工作),但我正在建立管道以防万一那里也有问题。
这是我的蜘蛛:
这是我的管道:
任何帮助将非常感激。
python - 刮擦管道无法工作
我在同一个项目中编写了几个蜘蛛,它们调用同一个管道类。
在这样的管道代码中:
它有效,在我让我的新 spiedrX 调用它之前。
我的 spiderX 调用的代码就像其他蜘蛛调用一样:
然后它不调用管道,但其他人可以,我不知道为什么。
当我运行spiderX时,有一行scrapy输出:
这意味着我猜管道可以工作
任何建议将不胜感激。
编辑:只是我的新spiderX不能调用管道,其他人可以。
scrapy - Scrapy,在管道中发出http请求
假设我有一个看起来像这样的刮擦物品
在管道中,我想向 url 发出 GET 请求并检查一些标头,例如 content_type 和 status。当标题不满足某些条件时,我想删除该项目。喜欢
使用管道是不可能闻到这样的气味的。你怎么看?任何想法如何实现这一目标?
蜘蛛:
scrapy - Scrapy:从 HTML 而非 URL 中抓取项目
我遇到了需要爬行和刮擦的 Scrapy。但根据应用要求,我决定不采用 Monolithic 方法。一切都应该以服务为基础。所以我决定设计两个服务。
- 获取所有 url 和 html。上传到s3。
- 从 html 中抓取项目
为什么?很简单,今天我决定把它刮掉10个,明天我要刮20个(申请要求)。在这种情况下,我不想再次抓取 url 和 html,因为 html 将是相同的(我只抓取博客站点,其中只添加评论并且每个 url 的内容保持不变)。
第一项服务将基于 Scrapy。如果我们可以提供 html 而不是 start url,或者我们必须使用 BeatifulSoap 或其他一些抓取库,我正在寻找是否可以使用相同的抓取。
django - Scrapy 图像管道不下载图像
我正在尝试使用 Scrapy Framework 和 djano-item 设置从网页下载图像。我想我已经完成了doc中的所有操作, 但是在调用 scrapy crawl 之后,我的日志看起来像这样:
我找不到任何关于出了什么问题的信息,但图像字段为空且目录不包含任何图像。
这是我的模型
这就是我从蜘蛛到图像管道的方式
最后这是我的 Scrapy 项目的 settings.py:
预先感谢您的帮助
编辑:
我使用了来自 doc 的自定义图像管道,看起来像这样,
在 get_media_requests 它创建对我的 Url 的请求,但在 item_completed 结果参数中我得到这样的东西:[(False, <twisted.python.failure.Failure scrapy.pipelines.files.FileException: >)]
我仍然不知道如何修复它。问题是否可能是由使用 https 的地址引用引起的?