“scrapy-spider”的相关标签问题

0 投票

1 回答

2280 浏览

scrapy - 在scrapy的同一进程中运行多个蜘蛛后如何停止反应器？

我有几个不同的蜘蛛，想一次运行它们。基于this和this，我可以在同一个进程中运行多个蜘蛛。但是，我不知道如何设计一个信号系统来在所有蜘蛛完成后停止反应堆。

我努力了：

和

在这两种情况下，反应堆都会在第一个爬虫关闭时停止。当然，我希望反应堆在所有蜘蛛完成后停止。

有人可以告诉我如何做到这一点吗？

scrapy scrapy-spider

user3136452

2014-04-03T00:14:22.897

0 投票

1 回答

2496 浏览

python - Scrapy 拒绝规则

嘿，我目前正在使用scrapy，并且在运行爬网时注意到我的拒绝规则被完全忽略，导致相同项目的多次刮擦，任何人都可以告诉我为什么。任何帮助表示赞赏

** * ** * ** * ** * ** *编辑* ** * ** * ** * ** * ** *

这是日志中发生的事情

2014-04-07 15:01:47+0100 [diy_cat] 调试：从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8416757&productId=13538712&skuId=14009418&width=411 >

2014-04-07 15:01:47+0100 [diy_cat] 调试：从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8416844&productId=13538712&skuId=14009418&width=411 >

2014-04-07 15:01:47+0100 [diy_cat] 调试：从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8417696&productId=13538712&skuId=14009418&width=411 >

2014-04-07 15:01:47+0100 [diy_cat] 调试：从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?heroPopup=true&mediaId=m8417696&productId=13538712&skuId=14009418 >

2014-04-07T13:48:30.697

0 投票

4 回答

8347 浏览

python - 如何从scrapy spider回调中收集统计信息？

如何从蜘蛛回调中收集统计信息？

例子

一般不确定要提供什么import或如何stats提供。

python scrapy scrapy-spider

2014-04-09T01:54:18.793

0 投票

1 回答

1149 浏览

python - 在scrapy中使用cookie的正确形式是什么

我是个新手，我在使用 cookie 的网络中使用 scrapy，这对我来说是个问题，因为我可以在没有 cookie 的网络上获取数据，但获取带有 cookie 的网络的数据对我来说很困难。我有这个代码结构

这很好，我可以使用这个代码结构获得没有 cookie 的良好数据我发现它因为我可以在这个 url 中使用 cookie，但我不明白我应该把这个代码放在哪里然后能够使用路径

我正在测试这段代码

但我不知道我可以工作或将此代码放在哪里，我将此代码放入函数解析中，以获取数据

我尝试将 XPath 与这个带有 cookie 的新 url 一起使用，以便稍后打印这个新的数据抓取使用这些 cookie 的正确方法是什么，我有点迷茫，非常感谢。

python cookies xpath scrapy scrapy-spider

2014-04-24T20:36:05.367

0 投票

3 回答

1370 浏览

python - Scrapy 蜘蛛不包括所有请求的页面

我有一个用于 Yelp 的 Scrapy 脚本，在大多数情况下，它可以正常工作。本质上，我可以为它提供 Yelp 页面列表，它应该返回所有页面的所有评论。到目前为止的脚本如下：

但是，我遇到的问题是这个特定的脚本会抓取每个请求评论的每一页，除了第一页。如果我注释掉最后一个“if”语句，它只会刮掉第一页。我怀疑我需要的只是一个简单的“其他”命令，但我很难过......非常感谢帮助！

编辑：这是当前基于收到的帮助的代码...

正如下面的评论中提到的，按原样运行此代码会爬取每个所需的页面，但它只返回每个页面的一条评论，而不是所有评论。

我尝试更改yield item为，但每个抓取的 URL 都会返回yield items一条错误消息。ERROR: Spider must return Request, BaseItem or None, got 'list' in <GET http://www.yelp.com/biz/[...]>

python web-scraping web-crawler scrapy scrapy-spider

2014-04-26T01:26:45.793

0 投票

2 回答

3512 浏览

python - 从python脚本运行scrapy

我一直在尝试从 python 脚本文件运行 scrapy，因为我需要获取数据并将其保存到我的数据库中。但是当我用scrapy命令运行它时

该脚本运行良好，但是当我尝试使用脚本运行它时，请按照此链接

我得到这个错误

我无法理解为什么它没有找到 get_project_setting() 但在终端上使用 scrapy 命令运行良好

这是我的项目的屏幕截图

在此处输入图像描述

这是 pricewatch.py 代码：

python web-scraping scrapy scrapy-spider

2014-05-09T20:42:46.163

0 投票

4 回答

26078 浏览

python - 从 json 中的脚本输出中抓取

我scrapy在 python 脚本中运行

它运行成功并停止但结果在哪里？我想要json格式的结果，我该怎么做？

就像我们使用命令一样

python json web-scraping scrapy scrapy-spider

2014-05-09T22:02:11.457

0 投票

0 回答

125 浏览

python - 如何一次从 Python 脚本运行多个蜘蛛？

我已经创建了 4 个蜘蛛我希望在运行脚本时运行超过 1 个蜘蛛到目前为止我已经尝试过这个但没有帮助

我有这 4 只蜘蛛

我需要在 1 个命令上运行所有这些，所以我这样做......

这样做的正确方法是什么？？？？

python scrapy-spider

2014-05-11T09:52:56.120

0 投票

1 回答

1338 浏览

python - 将 Selenium HTML 字符串传递给 Scrapy 以将 URL 添加到 Scrapy 要抓取的 URL 列表

我对 Python、Scrapy 和 Selenium 非常陌生。因此，您可以提供的任何帮助将不胜感激。

我希望能够将从 Selenium 获得的 HTML 作为页面源并将其处理为 Scrapy Response 对象。主要原因是能够将 Selenium Webdriver 页面源中的 URL 添加到 Scrapy 将解析的 URL 列表中。

同样，任何帮助将不胜感激。

作为一个快速的第二个问题，有没有人知道如何查看 Scrapy 发现和抓取的 URL 列表中的 URL 列表？

谢谢！

*******编辑******* 这是我正在尝试做的一个例子。看不懂第五部

python selenium web-scraping scrapy scrapy-spider

2014-05-13T13:09:05.983

0 投票

1 回答

379 浏览

python - Scrapy 只抓取给定的页面

我开始学习scrapy，我用谷歌搜索这个问题大约4-5个小时，但找不到任何东西。任何人都可以帮助我吗？我有一个电子商务网站。我只会获取产品页面。其他页面没有，将通过另一个页面。我给了 starturls 主页，之后我设置了 urlsallow() 并解析并遵循 true，但我无法管理它来遵循链接

我的蜘蛛：

谢谢大家

python web-scraping scrapy scrapy-spider

2014-05-14T12:34:12.560

问题标签 [scrapy-spider]

Reference