问题标签 [splash-js-render]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
76 浏览

python - Scrapy中刮取值之间的空格

我正在尝试使用 Scrapy 从以下页面抓取一些对象:

https://www.reclameaqui.com.br/indices/lista_reclamacoes/?id=9980&page=1&size=10&status=ALL

使用以下代码:

当我运行蜘蛛时,“状态”和“业务”变量返回如下:

但 'title' 和 'city_date' 返回如下:

我不知道为什么它会在抓取值之间返回那些空格,我如何在没有空格的情况下抓取结果,或者我是否需要在抓取后删除?

(我也在使用 splash 来渲染页面,因为它是一个 javascript 重的页面,但我认为这不会影响抓取)

0 投票
0 回答
453 浏览

python - 无法解析scrapy-splash lua脚本的html响应

我正在尝试解析从 SplashRequest 执行端点返回的 html,该端点应该返回 html,但是当我将它传递给回调函数时,它不会打印任何内容(不解析)。我的日志显示没有错误,代码如下

我在下面添加了日志,您可以看到没有错误,但 SplashRequest html 也没有被解析。splash:html() 应该呈现 html,我知道回调可以将响应传递给不同的解析方法。任何援助将不胜感激。

0 投票
1 回答
522 浏览

web-scraping - Linux 中的 Scrapy Splash + Crawlera 总是出现 503 服务不可用错误

当我在我的 Linux 服务器中使用 Scrapy Splash + Crawlera 时,它总是会出现 503 错误。它在 Windows 中运行良好。这是为什么?

0 投票
1 回答
83 浏览

scrapy - 无论如何在执行时停止 Splash 脚本?

假设您在 Splash 上执行一个大型脚本,需要执行 5 分钟的操作。使用正确的超时参数,这是完全可能的。假设当 splash 开始处理脚本时,您想提前停止脚本的执行,从而有效地杀死它。有没有办法告诉 Splash 这样做?我没有看到 API 中记录的任何内容

0 投票
0 回答
97 浏览

web - scrapy splash - SplashFormRequest 参数错误

我是splash的新手,我只是将它实现为scrapy,并尝试用它来替换一个经典的scrapy请求(因为我想抓取的页面使用了一些js)。到目前为止,我有:

问题是我一直在寻找一种方法来设置我的标题和我的 cookie,但我找不到方法(即使如此文档谈论它我不明白最好的方法?

0 投票
1 回答
1698 浏览

python - 使用 Scrapy + Splash 的表单请求

我正在尝试使用以下代码登录网站(针对这篇文章稍作修改):

我收到错误消息:

由于某种原因,我仍然无法登录。我在这里浏览了许多不同的帖子,并尝试了许多不同的“splash:select”变体,但我似乎找不到我的问题。当我用 chrome 检查网页时,我看到了这个(密码类似的 html):

上面的 html,我相信是用 JS 编写的。所以我无法用 Scrapy 抓取它,所以,我查看了页面的源代码,我认为与 Splash 一起使用的相关 JS 代码是这样的(虽然不确定):

有人可以将我推向正确的方向吗?

0 投票
1 回答
451 浏览

php - 清除飞溅浏览器缓存

我正在尝试可视化网站速度分析。作为无头浏览器,我使用 Splash 3.2 ...不幸的是,我在获取正确的 har 文件时遇到了问题。

第一个请求看起来不错,在第二个请求之后我只收到未缓存的请求。

我试图通过对 _gc 端点的发布请求来清空缓存,但不幸的是没有成功。

我的卷曲请求:

_gc 请求的结果:

之后,我尝试使用 --disable-browser-caches 启动 Splash 以获得正确的输出,但 Splash 不会缓存任何内容,因此如果多次出现相同的文件,则会向它们发出许多请求。

是否有另一种方法可以在渲染之前刷新浏览器缓存,或者我应该更喜欢使用另一个无头浏览器(推荐)?

0 投票
2 回答
948 浏览

python - Scrapy splash spider 不跟随链接来获取新页面

我正在从使用 Javascript 链接到新页面的页面中获取数据。我正在使用 Scrapy + splash 来获取这些数据,但是,由于某种原因,链接没有被跟踪。

这是我的蜘蛛的代码:

仅获取第一页,我无法通过“单击”页面底部的链接来获取后续页面。

我该如何解决这个问题,以便我可以点击页面底部给出的页面?

0 投票
0 回答
61 浏览

scrapy - Scrapy+Splash (osx) 的 GUI 和用户交互

我正在寻找一种能够与 Scrapy+Splash 交互的方法。比如打开一个浏览器窗口看看发生了什么,如果需要也可以点击。

有什么好的方法吗?

方法来自

https://splash.readthedocs.io/en/stable/kernel.html#live-webkit-window

没用。

0 投票
1 回答
1297 浏览

docker - 如何使用 docker 工具箱运行 splash

我正在尝试用 splash 来刮掉网络上的动态内容,我使用的是 Windows 10 家庭版。有没有办法使用 Docker 工具箱而不是 docker-desktop 来使用splash?

docker 工具箱说,它是无法运行 docker-desktop 的系统的替代方案。docker 桌面应用程序对于启动非常重要,它需要 Windows 10 专业版或企业版。

我找不到为启动配置 docker-toolbox 的方法。是否有任何指南可以帮助在我的 Windows 10 家庭版上使用 docker-toolbox 配置启动画面。谢谢!