问题标签 [scrapy-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - 下面的POST方法在scrapy中不起作用
我也尝试过使用标题、cookie、Formdata 和正文,但我得到了 401 和 500 状态码。在此站点中,第一页采用 GET 方法并提供 HTML 响应,其他页面采用 POST 方法并提供 JSON 响应。但是这些状态代码是未经授权的,但我已经搜索过,但在网页标题中找不到任何 CSRF 令牌或身份验证令牌。
python - 在scrapy中从ImagesPipeline(或MediaPipeline)中检索http返回码
我有一个工作蜘蛛抓取图像 URL 并将它们放在 scrapy.Item 的 image_urls 字段中。我有一个继承自 ImagesPipeline 的自定义管道。当特定 URL 返回非 200 http 响应代码时(例如 401 错误)。例如,在日志文件中,我发现
但是,我无法在函数的自定义图像管道中捕获错误代码404、307item_completed()
等:
在files.pymedia_downloaded()
的函数内部挖掘 scrapy 源代码,我发现对于非 200 响应代码,会记录一个警告(解释上述 WARNING 行),然后引发 a。FileException
我还如何访问此响应代码,以便我可以在 item_completed() 函数的管道中处理它?
scrapy - Scrapy Shell Splash 无法正确渲染
我尝试在scrapy shell中呈现带有splash的javascript页面。我想渲染谷歌的搜索结果:scrapy shell ' http://localhost:8050/render.html?url=https://www.google.com.tr/#q=christian+omlin+email&timeout=10&wait=0.5 '
但外壳返回“www.google.com”,而不是问题参数(christian omlin email),它只是删除它们。
我看谷歌有 https,也许 8050 不适合它,或者 url 的引号是错误的。为什么会发生?
python-2.7 - 如何停止多线程或如何在 Scrapy 中一一发出请求?
我试图以格式爬取产品的数据。1) 添加购物车 2) 查看购物车 3) 删除购物车
对于单色产品,它工作得很好,但对于多色产品,Scrapy 采用多线程,因此上述过程并不适用于每个产品。
我希望scrapy请求如下:
1) 产品 A - 添加购物车 产品 A - 查看购物车 产品 A - 移除购物车
2) 产品 B - 添加购物车 产品 B - 查看购物车 产品 B - 删除购物车
3) 产品 C - 添加购物车 产品 C - 查看购物车 产品 C - 删除购物车
我也使用过(回调时的优先级),但没有运气。协助将不胜感激。提前致谢。
shell - 为什么我无法在scrapy shell 上打开这个网址?
当我跑的时候
我什么都得不到。光标像屏幕截图中一样闪烁
python - 使用scrapy发布请求没有正确重定向?
我正在尝试使用 scrapy从http://www.bcpa.com提取一些数据。我有一些地址,我想从网站中提取与每个地址相关的信息,所以我需要通过这个网址“按地址搜索” http://www.bcpa.net/RecAddr.asp
我尝试将 8433 作为街道编号,将 LAKEVIEW 作为街道名称,然后该站点将我重定向到此 URL:http ://www.bcpa.net/RecInfo.asp?URL_Folio=474128020500 ,这是我想要的。但是,如您所见,我用于搜索的信息不在结果网址中。我用检查员检查了页面,我得到了这样的信息:
所以,我使用scrapy做了一个发布请求,并传递如下参数:
如您所见,它不起作用,该站点将我重定向到原始页面。我不知道为什么。任何想法?
web-scraping - Scrapy Shell:虽然设置了 USER_AGENT,但 twisted.internet.error.ConnectionLost
当我尝试抓取某个网站(同时使用蜘蛛和 shell)时,我收到以下错误:
我发现当没有设置用户代理时,可能会发生这种情况。但是手动设置后,我仍然遇到同样的错误。
你可以在这里看到scrapy shell的全部输出:http: //pastebin.com/ZFJZ2UXe
笔记:
我不在代理后面,我可以通过scrapy shell访问其他站点而不会出现问题。我也可以使用 Chrome 访问该站点,因此这不是网络或连接问题。
也许有人可以给我一个提示,我该如何解决这个问题?
python-2.7 - 如何抓取下一页的项目
你好我是编程和scrapy的新手。试图学习scrapy我尝试刮一些项目。但无法进行抓取下一页项目,请帮助如何解析该网站的下一个链接 url。
这是我的代码:
python-2.7 - 如何使用带有 url 和基本身份验证凭据的 scrapy shell?
我想使用scrapy shell
和测试需要基本身份验证凭据的 url 的响应数据。我试图检查scrapy shell 文档,但在那里找不到。
我试过了,scrapy shell 'http://user:pwd@abc.com'
但没有用。有人知道我怎么能做到吗?
xpath - web-crawling - 从 bandcamp.com 获取项目标题
我尝试从页面的“发现”部分(摇滚->所有摇滚->新来者)从 bandcamp.com 的新版本中获取项目标题
该页面的部分相关源代码如下所示:
我试图在 xpath 的帮助下获取 item-title 的文本(在本例中为“Dead Rebel”):
但它什么也不返回。
它也不适用于“项目艺术家”,所以我想知道我做错了什么。
我很感激任何帮助。