问题标签 [scrapy-spider]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy 拒绝规则
嘿,我目前正在使用scrapy,并且在运行爬网时注意到我的拒绝规则被完全忽略,导致相同项目的多次刮擦,任何人都可以告诉我为什么。任何帮助表示赞赏
** * ** * ** * ** * ** *编辑* ** * ** * ** * ** * ** *
这是日志中发生的事情
2014-04-07 15:01:47+0100 [diy_cat] 调试:从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8416757&productId=13538712&skuId=14009418&width=411 >
2014-04-07 15:01:47+0100 [diy_cat] 调试:从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8416844&productId=13538712&skuId=14009418&width=411 >
2014-04-07 15:01:47+0100 [diy_cat] 调试:从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?height=411&mediaId=m8417696&productId=13538712&skuId=14009418&width=411 >
2014-04-07 15:01:47+0100 [diy_cat] 调试:从 <200 http://www.diy.com/nav/garden/garden-buildings/cabins-summerhouses/-constructiontype-Interlocking/-pricerangec中删除-1200-1300/-size%3E3_29_x_2_39m/Shire-11x8-Berryfield-Log-Cabin-Home-Delivered-Only-13538712?heroPopup=true&mediaId=m8417696&productId=13538712&skuId=14009418 >
python - 如何从scrapy spider回调中收集统计信息?
如何从蜘蛛回调中收集统计信息?
例子
一般不确定要提供什么import
或如何stats
提供。
python - 在scrapy中使用cookie的正确形式是什么
我是个新手,我在使用 cookie 的网络中使用 scrapy,这对我来说是个问题,因为我可以在没有 cookie 的网络上获取数据,但获取带有 cookie 的网络的数据对我来说很困难。我有这个代码结构
这很好,我可以使用这个代码结构获得没有 cookie 的良好数据我发现它因为我可以在这个 url 中使用 cookie,但我不明白我应该把这个代码放在哪里然后能够使用路径
我正在测试这段代码
但我不知道我可以工作或将此代码放在哪里,我将此代码放入函数解析中,以获取数据
我尝试将 XPath 与这个带有 cookie 的新 url 一起使用,以便稍后打印这个新的数据抓取使用这些 cookie 的正确方法是什么,我有点迷茫,非常感谢。
python - Scrapy 蜘蛛不包括所有请求的页面
我有一个用于 Yelp 的 Scrapy 脚本,在大多数情况下,它可以正常工作。本质上,我可以为它提供 Yelp 页面列表,它应该返回所有页面的所有评论。到目前为止的脚本如下:
但是,我遇到的问题是这个特定的脚本会抓取每个请求评论的每一页,除了第一页。如果我注释掉最后一个“if”语句,它只会刮掉第一页。我怀疑我需要的只是一个简单的“其他”命令,但我很难过......非常感谢帮助!
编辑:这是当前基于收到的帮助的代码...
正如下面的评论中提到的,按原样运行此代码会爬取每个所需的页面,但它只返回每个页面的一条评论,而不是所有评论。
我尝试更改yield item
为,但每个抓取的 URL 都会返回yield items
一条错误消息。ERROR: Spider must return Request, BaseItem or None, got 'list' in <GET http://www.yelp.com/biz/[...]>
python - 从python脚本运行scrapy
我一直在尝试从 python 脚本文件运行 scrapy,因为我需要获取数据并将其保存到我的数据库中。但是当我用scrapy命令运行它时
该脚本运行良好,但是当我尝试使用脚本运行它时,请按照此链接
我得到这个错误
我无法理解为什么它没有找到 get_project_setting() 但在终端上使用 scrapy 命令运行良好
这是我的项目的屏幕截图
这是 pricewatch.py 代码:
python - 从 json 中的脚本输出中抓取
我scrapy
在 python 脚本中运行
它运行成功并停止但结果在哪里?我想要json格式的结果,我该怎么做?
就像我们使用命令一样
python - 如何一次从 Python 脚本运行多个蜘蛛?
我已经创建了 4 个蜘蛛我希望在运行脚本时运行超过 1 个蜘蛛到目前为止我已经尝试过这个但没有帮助
我有这 4 只蜘蛛
我需要在 1 个命令上运行所有这些,所以我这样做......
这样做的正确方法是什么????
python - 将 Selenium HTML 字符串传递给 Scrapy 以将 URL 添加到 Scrapy 要抓取的 URL 列表
我对 Python、Scrapy 和 Selenium 非常陌生。因此,您可以提供的任何帮助将不胜感激。
我希望能够将从 Selenium 获得的 HTML 作为页面源并将其处理为 Scrapy Response 对象。主要原因是能够将 Selenium Webdriver 页面源中的 URL 添加到 Scrapy 将解析的 URL 列表中。
同样,任何帮助将不胜感激。
作为一个快速的第二个问题,有没有人知道如何查看 Scrapy 发现和抓取的 URL 列表中的 URL 列表?
谢谢!
*******编辑******* 这是我正在尝试做的一个例子。看不懂第五部
python - Scrapy 只抓取给定的页面
我开始学习scrapy,我用谷歌搜索这个问题大约4-5个小时,但找不到任何东西。任何人都可以帮助我吗?我有一个电子商务网站。我只会获取产品页面。其他页面没有,将通过另一个页面。我给了 starturls 主页,之后我设置了 urlsallow() 并解析并遵循 true,但我无法管理它来遵循链接
我的蜘蛛:
谢谢大家