问题标签 [scrapy-splash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
444 浏览

python - 将 Scrapy 与 CasperJS 相结合

当我使用 Scrapy-Splash 尝试 Splash 时,它不支持像真正的浏览器一样导航。它只呈现 HTML,但是当它单击一个按钮时,它不会呈现它导航到的下一页。

根据我的简单研究,只有 CasperJS 支持使用导航进行网页抓取。但是,是否可以结合 Scrapy 和 CasperJS

0 投票
1 回答
607 浏览

scrapy - 如何强制scrapy-splash重试失败的项目?

我正在使用 scrapy-splash 从 Javascript 驱动的 IFRAMEd HTML 页面中提取信息。有时,我的启动 Javascript 函数由于某些浏览器条件而失败,并返回类似{"error": "NotSupportedError: DOM Exception 9"}) 的错误消息。

在我的项目管道中,我删除了这些项目以保持我的结果干净:

不幸的是,我的错误项目率约为 40%。所以我想让scrapy-splash重试这些失败的url,而不是简单地删除项目。我怎样才能做到这一点?

0 投票
2 回答
591 浏览

python - Ubuntu 服务器上的 Scrapy Splash:得到了一个意外的关键字参数“编码”

我正在使用的 Scrapy Splash 在我的本地机器上工作得很好,但是当我在我的 Ubuntu 服务器上使用它时它会返回这个错误。这是为什么?是内存不足造成的吗?

更新

仅在使用 localhost 作为SPLASH_URL

0 投票
1 回答
557 浏览

python-2.7 - 如何抓取下一页的项目

你好我是编程和scrapy的新手。试图学习scrapy我尝试刮一些项目。但无法进行抓取下一页项目,请帮助如何解析该网站的下一个链接 url。

这是我的代码:

0 投票
1 回答
520 浏览

html - 动态全屏图像启动页面

我正在尝试为我在 bigcartel 上的网站构建一个简单的登录页面。我正在尝试获取它,以便全屏图像占据整个页面并在经过大量研究后被点击后定向到产品页面这就是我想出的

我的问题是我无法根据浏览器分辨率拉伸和调整图像

0 投票
1 回答
1831 浏览

scrapy - 如何确保 scrapy-splash 成功渲染了整个页面

当我通过使用 splash 渲染整个目标页面爬取整个网站时出现问题。某些页面不是随机成功的,所以我错误地获取了支持在渲染工作完成时出现的信息。这意味着我只是得到了一部分来自渲染结果的信息虽然我可以从其他渲染结果中获取全部信息。

这是我的代码:

0 投票
1 回答
2315 浏览

python - 带有 Scrapy-Splash 的代理服务器

我正在尝试让代理服务器在我的本地启动实例上工作。我已经阅读了几份文件,但没有找到任何可行的例子。我注意到这个https://github.com/scrapy-plugins/scrapy-splash/issues/107是原因。我不再获得该回溯,但仍然无法将 Splash 与代理一起使用。下面的新错误消息。如果有人可以帮助我解决这个问题,请提前感谢。我的任何请求都没有通过 Splash。

0 投票
1 回答
599 浏览

scrapy - Scrapy SplashRequest 和损坏的 PNG

我正在尝试使用 Scrapy-Splash 使用“render.png”端点截取网站的屏幕截图(实际上,在发生某些异常后,我在我的蜘蛛中执行此操作,并且我想查看网站如何查找它们) .

我遇到的问题是响应似乎不是有效的 PNG。scrapy shell 中的一个最小示例是:

当然,您将需要运行本地启动服务器来执行此操作(请参见此处

响应头是

但身体开始像

甚至在修剪 html 标签并保存到文件之后,我的系统仍然显示无效的 PNG。

另一方面,如果我使用python-requests

我没有问题。响应内容开始像

标题是

并保存文件会生成一个有效的 PNG 图像,我可以在我的系统上查看它。

搞砸 PNG 的 SplashRequest 是怎么回事?

我也使用来自scrapy docs的屏幕截图管道发现了完全相同的问题。

编辑:有趣的是,如果我在中间件 process_response 中设置断点,则 response.body 在那个阶段是一个有效的 PNG。

0 投票
0 回答
357 浏览

docker - 无法从 docker 中提取启动画面

我尝试使用如下所示的 docker 命令下载启动画面的图像,但失败并出现错误“在存储库 scrapinghub/splash 中找不到最新的标记”

sudo docker pull scrapinghub/splash

我试图通过从 docker 网站“ https://hub.docker.com/r/scrapinghub/splash/tags/ ”获取最新的标签名称来拉取图像,如下所示,但即使这样也以同样的错误结束。

sudo docker pull scrapinghub/splash:2.3.2

谁能帮我解决这个问题。我使用的是 Ubuntu 14.04 版本。另一方面,我可以从“ https://hub.docker.com/r/scrapinghub/splash/ ”下载图像吗?存储库详细信息页面中的一些 URL 与我尝试提取的图像相同?

0 投票
1 回答
113 浏览

scrapy - 尝试用刮擦/飞溅爬行时出现问题?

我有兴趣抓取一个网站,首先我想从网站的这一部分获取链接:

因此,我尝试实现一个蜘蛛来提取此类信息:

问题是我没有从上述对象中获取网址:

如何修复蜘蛛以获取链接并启动分页方案?...