问题标签 [scrapy-shell]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

160 问题

0 投票

1 回答

440 浏览

python-2.7 - 下面的POST方法在scrapy中不起作用

我也尝试过使用标题、cookie、Formdata 和正文，但我得到了 401 和 500 状态码。在此站点中，第一页采用 GET 方法并提供 HTML 响应，其他页面采用 POST 方法并提供 JSON 响应。但是这些状态代码是未经授权的，但我已经搜索过，但在网页标题中找不到任何 CSRF 令牌或身份验证令牌。

2016-12-10T10:46:11.533

0 投票

2 回答

821 浏览

python - 在scrapy中从ImagesPipeline（或MediaPipeline）中检索http返回码

我有一个工作蜘蛛抓取图像 URL 并将它们放在 scrapy.Item 的 image_urls 字段中。我有一个继承自 ImagesPipeline 的自定义管道。当特定 URL 返回非 200 http 响应代码时（例如 401 错误）。例如，在日志文件中，我发现

但是，我无法在函数的自定义图像管道中捕获错误代码404、307item_completed()等：

在files.pymedia_downloaded()的函数内部挖掘 scrapy 源代码，我发现对于非 200 响应代码，会记录一个警告（解释上述 WARNING 行），然后引发 a。FileException

我还如何访问此响应代码，以便我可以在 item_completed() 函数的管道中处理它？

python scrapy scrapy-spider scrapy-pipeline scrapy-shell

2017-01-19T19:57:04.277

0 投票

0 回答

170 浏览

scrapy - Scrapy Shell Splash 无法正确渲染

我尝试在scrapy shell中呈现带有splash的javascript页面。我想渲染谷歌的搜索结果：scrapy shell ' http://localhost:8050/render.html?url=https://www.google.com.tr/#q=christian+omlin+email&timeout=10&wait=0.5 '

但外壳返回“www.google.com”，而不是问题参数（christian omlin email），它只是删除它们。

我看谷歌有 https，也许 8050 不适合它，或者 url 的引号是错误的。为什么会发生？

scrapy scrapy-splash scrapy-shell

2017-01-31T15:06:12.260

0 投票

1 回答

812 浏览

python-2.7 - 如何停止多线程或如何在 Scrapy 中一一发出请求？

我试图以格式爬取产品的数据。1) 添加购物车 2) 查看购物车 3) 删除购物车

对于单色产品，它工作得很好，但对于多色产品，Scrapy 采用多线程，因此上述过程并不适用于每个产品。

我希望scrapy请求如下：

1) 产品 A - 添加购物车产品 A - 查看购物车产品 A - 移除购物车

2) 产品 B - 添加购物车产品 B - 查看购物车产品 B - 删除购物车

3) 产品 C - 添加购物车产品 C - 查看购物车产品 C - 删除购物车

我也使用过（回调时的优先级），但没有运气。协助将不胜感激。提前致谢。

python-2.7 scrapy scrapy-spider scrapy-pipeline scrapy-shell

2017-02-02T11:39:14.867

0 投票

1 回答

396 浏览

shell - 为什么我无法在scrapy shell 上打开这个网址？

当我跑的时候

scrapy shell https://partsouq.com/en/catalog/genuine/unit?c=Toyota&ssd=%24HQwdcgcAAwFNa3Y_IS9WZm1SC1BrWUo%24&vid=4463&cid=&uid=2535&q=

我什么都得不到。光标像屏幕截图中一样闪烁

如何报废此页面？

shell web-scraping scrapy scrapy-shell

2017-02-09T06:06:06.617

0 投票

1 回答

809 浏览

python - 使用scrapy发布请求没有正确重定向？

我正在尝试使用 scrapy从http://www.bcpa.com提取一些数据。我有一些地址，我想从网站中提取与每个地址相关的信息，所以我需要通过这个网址“按地址搜索” http://www.bcpa.net/RecAddr.asp

我尝试将 8433 作为街道编号，将 LAKEVIEW 作为街道名称，然后该站点将我重定向到此 URL：http ://www.bcpa.net/RecInfo.asp?URL_Folio=474128020500 ，这是我想要的。但是，如您所见，我用于搜索的信息不在结果网址中。我用检查员检查了页面，我得到了这样的信息：