问题标签 [scrapy-spider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2280 浏览

scrapy - 在scrapy的同一进程中运行多个蜘蛛后如何停止反应器?

我有几个不同的蜘蛛,想一次运行它们。基于thisthis,我可以在同一个进程中运行多个蜘蛛。但是,我不知道如何设计一个信号系统来在所有蜘蛛完成后停止反应堆。

我努力了:

在这两种情况下,反应堆都会在第一个爬虫关闭时停止。当然,我希望反应堆在所有蜘蛛完成后停止。

有人可以告诉我如何做到这一点吗?

0 投票
1 回答
2496 浏览

python - Scrapy 拒绝规则

嘿,我目前正在使用scrapy,并且在运行爬网时注意到我的拒绝规则被完全忽略,导致相同项目的多次刮擦,任何人都可以告诉我为什么。任何帮助表示赞赏

** * ** * ** * ** * ** *编辑* ** * ** * ** * ** * ** *

这是日志中发生的事情

2014-04-07 15:01:47+0100 [diy_cat] 调试:从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8416757&productId=13538712&skuId=14009418&width=411 >

2014-04-07 15:01:47+0100 [diy_cat] 调试:从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8416844&productId=13538712&skuId=14009418&width=411 >

2014-04-07 15:01:47+0100 [diy_cat] 调试:从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8417696&productId=13538712&skuId=14009418&width=411 >

2014-04-07 15:01:47+0100 [diy_cat] 调试:从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?heroPopup=true&mediaId=m8417696&productId=13538712&skuId=14009418 >

0 投票
4 回答
8347 浏览

python - 如何从scrapy spider回调中收集统计信息?

如何从蜘蛛回调中收集统计信息?

例子

一般不确定要提供什么import或如何stats提供。

0 投票
1 回答
1149 浏览

python - 在scrapy中使用cookie的正确形式是什么

我是个新手,我在使用 cookie 的网络中使用 scrapy,这对我来说是个问题,因为我可以在没有 cookie 的网络上获取数据,但获取带有 cookie 的网络的数据对我来说很困难。我有这个代码结构

这很好,我可以使用这个代码结构获得没有 cookie 的良好数据我发现它因为我可以在这个 url 中使用 cookie,但我不明白我应该把这个代码放在哪里然后能够使用路径

我正在测试这段代码

但我不知道我可以工作或将此代码放在哪里,我将此代码放入函数解析中,以获取数据

我尝试将 XPath 与这个带有 cookie 的新 url 一起使用,以便稍后打印这个新的数据抓取使用这些 cookie 的正确方法是什么,我有点迷茫,非常感谢。

0 投票
3 回答
1370 浏览

python - Scrapy 蜘蛛不包括所有请求的页面

我有一个用于 Yelp 的 Scrapy 脚本,在大多数情况下,它可以正常工作。本质上,我可以为它提供 Yelp 页面列表,它应该返回所有页面的所有评论。到目前为止的脚本如下:

但是,我遇到的问题是这个特定的脚本会抓取每个请求评论的每一页,除了第一页。如果我注释掉最后一个“if”语句,它只会刮掉第一页。我怀疑我需要的只是一个简单的“其他”命令,但我很难过......非常感谢帮助!

编辑:这是当前基于收到的帮助的代码...

正如下面的评论中提到的,按原样运行此代码会爬取每个所需的页面,但它只返回每个页面的一条评论,而不是所有评论。

我尝试更改yield item为,但每个抓取的 URL 都会返回yield items一条错误消息。ERROR: Spider must return Request, BaseItem or None, got 'list' in <GET http://www.yelp.com/biz/[...]>

0 投票
2 回答
3512 浏览

python - 从python脚本运行scrapy

我一直在尝试从 python 脚本文件运行 scrapy,因为我需要获取数据并将其保存到我的数据库中。但是当我用scrapy命令运行它时

该脚本运行良好,但是当我尝试使用脚本运行它时,请按照此链接

我得到这个错误

我无法理解为什么它没有找到 get_project_setting() 但在终端上使用 scrapy 命令运行良好

这是我的项目的屏幕截图

在此处输入图像描述

这是 pricewatch.py​​ 代码:

0 投票
4 回答
26078 浏览

python - 从 json 中的脚本输出中抓取

scrapy在 python 脚本中运行

它运行成功并停止但结果在哪里?我想要json格式的结果,我该怎么做?

就像我们使用命令一样

0 投票
0 回答
125 浏览

python - 如何一次从 Python 脚本运行多个蜘蛛?

我已经创建了 4 个蜘蛛我希望在运行脚本时运行超过 1 个蜘蛛到目前为止我已经尝试过这个但没有帮助

我有这 4 只蜘蛛

我需要在 1 个命令上运行所有这些,所以我这样做......

这样做的正确方法是什么????

0 投票
1 回答
1338 浏览

python - 将 Selenium HTML 字符串传递给 Scrapy 以将 URL 添加到 Scrapy 要抓取的 URL 列表

我对 Python、Scrapy 和 Selenium 非常陌生。因此,您可以提供的任何帮助将不胜感激。

我希望能够将从 Selenium 获得的 HTML 作为页面源并将其处理为 Scrapy Response 对象。主要原因是能够将 Selenium Webdriver 页面源中的 URL 添加到 Scrapy 将解析的 URL 列表中。

同样,任何帮助将不胜感激。

作为一个快速的第二个问题,有没有人知道如何查看 Scrapy 发现和抓取的 URL 列表中的 URL 列表?

谢谢!

*******编辑******* 这是我正在尝试做的一个例子。看不懂第五部

0 投票
1 回答
379 浏览

python - Scrapy 只抓取给定的页面

我开始学习scrapy,我用谷歌搜索这个问题大约4-5个小时,但找不到任何东西。任何人都可以帮助我吗?我有一个电子商务网站。我只会获取产品页面。其他页面没有,将通过另一个页面。我给了 starturls 主页,之后我设置了 urlsallow() 并解析并遵循 true,但我无法管理它来遵循链接

我的蜘蛛:

谢谢大家