问题标签 [scrapy-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
440 浏览

python-2.7 - 下面的POST方法在scrapy中不起作用

我也尝试过使用标题、cookie、Formdata 和正文,但我得到了 401 和 500 状态码。在此站点中,第一页采用 GET 方法并提供 HTML 响应,其他页面采用 POST 方法并提供 JSON 响应。但是这些状态代码是未经授权的,但我已经搜索过,但在网页标题中找不到任何 CSRF 令牌或身份验证令牌。

0 投票
2 回答
821 浏览

python - 在scrapy中从ImagesPipeline(或MediaPipeline)中检索http返回码

我有一个工作蜘蛛抓取图像 URL 并将它们放在 scrapy.Item 的 image_urls 字段中。我有一个继承自 ImagesPipeline 的自定义管道。当特定 URL 返回非 200 http 响应代码时(例如 401 错误)。例如,在日志文件中,我发现

但是,我无法在函数的自定义图像管道中捕获错误代码404307item_completed()等:

在files.pymedia_downloaded()的函数内部挖掘 scrapy 源代码,我发现对于非 200 响应代码,会记录一个警告(解释上述 WARNING 行),然后引发 a。FileException

我还如何访问此响应代码,以便我可以在 item_completed() 函数的管道中处理它?

0 投票
0 回答
170 浏览

scrapy - Scrapy Shell Splash 无法正确渲染

我尝试在scrapy shell中呈现带有splash的javascript页面。我想渲染谷歌的搜索结果:scrapy shell ' http://localhost:8050/render.html?url=https://www.google.com.tr/#q=christian+omlin+email&timeout=10&wait=0.5 '

但外壳返回“www.google.com”,而不是问题参数(christian omlin email),它只是删除它们。

我看谷歌有 https,也许 8050 不适合它,或者 url 的引号是错误的。为什么会发生?

0 投票
1 回答
812 浏览

python-2.7 - 如何停止多线程或如何在 Scrapy 中一一发出请求?

我试图以格式爬取产品的数据。1) 添加购物车 2) 查看购物车 3) 删除购物车

对于单色产品,它工作得很好,但对于多色产品,Scrapy 采用多线程,因此上述过程并不适用于每个产品。

我希望scrapy请求如下:

1) 产品 A - 添加购物车 产品 A - 查看购物车 产品 A - 移除购物车

2) 产品 B - 添加购物车 产品 B - 查看购物车 产品 B - 删除购物车

3) 产品 C - 添加购物车 产品 C - 查看购物车 产品 C - 删除购物车

我也使用过(回调时的优先级),但没有运气。协助将不胜感激。提前致谢。

0 投票
1 回答
396 浏览

shell - 为什么我无法在scrapy shell 上打开这个网址?

当我跑的时候

scrapy shell https://partsouq.com/en/catalog/genuine/unit?c=Toyota&ssd=%24HQwdcgcAAwFNa3Y_IS9WZm1SC1BrWUo%24&vid=4463&cid=&uid=2535&q=

我什么都得不到。光标像屏幕截图中一样闪烁

如何报废此页面?在此处输入图像描述

0 投票
1 回答
809 浏览

python - 使用scrapy发布请求没有正确重定向?

我正在尝试使用 scrapy从http://www.bcpa.com提取一些数据。我有一些地址,我想从网站中提取与每个地址相关的信息,所以我需要通过这个网址“按地址搜索” http://www.bcpa.net/RecAddr.asp

我尝试将 8433 作为街道编号,将 LAKEVIEW 作为街道名称,然后该站点将我重定向到此 URL:http ://www.bcpa.net/RecInfo.asp?URL_Folio=474128020500 ,这是我想要的。但是,如您所见,我用于搜索的信息不在结果网址中。我用检查员检查了页面,我得到了这样的信息:

在此处输入图像描述

所以,我使用scrapy做了一个发布请求,并传递如下参数:

如您所见,它不起作用,该站点将我重定向到原始页面。我不知道为什么。任何想法?

0 投票
1 回答
2644 浏览

web-scraping - Scrapy Shell:虽然设置了 USER_AGENT,但 twisted.internet.error.ConnectionLost

当我尝试抓取某个网站(同时使用蜘蛛和 shell)时,我收到以下错误:

我发现当没有设置用户代理时,可能会发生这种情况。但是手动设置后,我仍然遇到同样的错误。

你可以在这里看到scrapy shell的全部输出:http: //pastebin.com/ZFJZ2UXe

笔记:

我不在代理后面,我可以通过scrapy shell访问其他站点而不会出现问题。我也可以使用 Chrome 访问该站点,因此这不是网络或连接问题。

也许有人可以给我一个提示,我该如何解决这个问题?

0 投票
1 回答
557 浏览

python-2.7 - 如何抓取下一页的项目

你好我是编程和scrapy的新手。试图学习scrapy我尝试刮一些项目。但无法进行抓取下一页项目,请帮助如何解析该网站的下一个链接 url。

这是我的代码:

0 投票
2 回答
4472 浏览

python-2.7 - 如何使用带有 url 和基本身份验证凭据的 scrapy shell?

我想使用scrapy shell和测试需要基本身份验证凭据的 url 的响应数据。我试图检查scrapy shell 文档,但在那里找不到。

我试过了,scrapy shell 'http://user:pwd@abc.com'但没有用。有人知道我怎么能做到吗?

0 投票
1 回答
165 浏览

xpath - web-crawling - 从 bandcamp.com 获取项目标题

我尝试从页面的“发现”部分(摇滚->所有摇滚->新来者)从 bandcamp.com 的新版本中获取项目标题

该页面的部分相关源代码如下所示:

我试图在 xpath 的帮助下获取 item-title 的文本(在本例中为“Dead Rebel”):

但它什么也不返回。

它也不适用于“项​​目艺术家”,所以我想知道我做错了什么。

我很感激任何帮助。