问题标签 [splash-js-render]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

141 问题

0 投票

1 回答

76 浏览

python - Scrapy中刮取值之间的空格

我正在尝试使用 Scrapy 从以下页面抓取一些对象：

https://www.reclameaqui.com.br/indices/lista_reclamacoes/?id=9980&page=1&size=10&status=ALL

使用以下代码：

当我运行蜘蛛时，“状态”和“业务”变量返回如下：

但 'title' 和 'city_date' 返回如下：

我不知道为什么它会在抓取值之间返回那些空格，我如何在没有空格的情况下抓取结果，或者我是否需要在抓取后删除？

（我也在使用 splash 来渲染页面，因为它是一个 javascript 重的页面，但我认为这不会影响抓取）

2018-09-26T17:09:05.493

0 投票

0 回答

453 浏览

python - 无法解析scrapy-splash lua脚本的html响应

我正在尝试解析从 SplashRequest 执行端点返回的 html，该端点应该返回 html，但是当我将它传递给回调函数时，它不会打印任何内容（不解析）。我的日志显示没有错误，代码如下

我在下面添加了日志，您可以看到没有错误，但 SplashRequest html 也没有被解析。splash:html() 应该呈现 html，我知道回调可以将响应传递给不同的解析方法。任何援助将不胜感激。

python web-scraping scrapy-splash splash-js-render

2018-10-04T13:39:36.973

0 投票

1 回答

522 浏览

web-scraping - Linux 中的 Scrapy Splash + Crawlera 总是出现 503 服务不可用错误

当我在我的 Linux 服务器中使用 Scrapy Splash + Crawlera 时，它总是会出现 503 错误。它在 Windows 中运行良好。这是为什么？

web-scraping scrapy scrapy-splash splash-js-render crawlera

2018-10-18T22:19:19.907

0 投票

1 回答

83 浏览

scrapy - 无论如何在执行时停止 Splash 脚本？

假设您在 Splash 上执行一个大型脚本，需要执行 5 分钟的操作。使用正确的超时参数，这是完全可能的。假设当 splash 开始处理脚本时，您想提前停止脚本的执行，从而有效地杀死它。有没有办法告诉 Splash 这样做？我没有看到 API 中记录的任何内容

scrapy web-crawler scrapy-spider scrapy-splash splash-js-render

2018-11-02T22:32:16.587

0 投票

0 回答

97 浏览

web - scrapy splash - SplashFormRequest 参数错误

我是splash的新手，我只是将它实现为scrapy，并尝试用它来替换一个经典的scrapy请求（因为我想抓取的页面使用了一些js）。到目前为止，我有：

问题是我一直在寻找一种方法来设置我的标题和我的 cookie，但我找不到方法（即使如此文档谈论它我不明白最好的方法？

web web-scraping scrapy scrapy-splash splash-js-render

2018-12-13T10:48:26.133

0 投票

1 回答

1698 浏览

python - 使用 Scrapy + Splash 的表单请求

我正在尝试使用以下代码登录网站（针对这篇文章稍作修改）：

我收到错误消息：

由于某种原因，我仍然无法登录。我在这里浏览了许多不同的帖子，并尝试了许多不同的“splash:select”变体，但我似乎找不到我的问题。当我用 chrome 检查网页时，我看到了这个（密码类似的 html）：

上面的 html，我相信是用 JS 编写的。所以我无法用 Scrapy 抓取它，所以，我查看了页面的源代码，我认为与 Splash 一起使用的相关 JS 代码是这样的（虽然不确定）：

有人可以将我推向正确的方向吗？

python python-3.x scrapy scrapy-splash splash-js-render

2018-12-14T22:56:57.023

0 投票

1 回答

451 浏览

php - 清除飞溅浏览器缓存

我正在尝试可视化网站速度分析。作为无头浏览器，我使用 Splash 3.2 ...不幸的是，我在获取正确的 har 文件时遇到了问题。

第一个请求看起来不错，在第二个请求之后我只收到未缓存的请求。

我试图通过对 _gc 端点的发布请求来清空缓存，但不幸的是没有成功。

我的卷曲请求：

_gc 请求的结果：

之后，我尝试使用 --disable-browser-caches 启动 Splash 以获得正确的输出，但 Splash 不会缓存任何内容，因此如果多次出现相同的文件，则会向它们发出许多请求。

是否有另一种方法可以在渲染之前刷新浏览器缓存，或者我应该更喜欢使用另一个无头浏览器（推荐）？

php python splash-js-render

2019-01-20T21:18:00.327

0 投票

2 回答

948 浏览

python - Scrapy splash spider 不跟随链接来获取新页面

我正在从使用 Javascript 链接到新页面的页面中获取数据。我正在使用 Scrapy + splash 来获取这些数据，但是，由于某种原因，链接没有被跟踪。

这是我的蜘蛛的代码：

仅获取第一页，我无法通过“单击”页面底部的链接来获取后续页面。

我该如何解决这个问题，以便我可以点击页面底部给出的页面？

python scrapy scrapy-splash splash-js-render

2019-02-25T13:48:16.387

0 投票

0 回答

61 浏览

scrapy - Scrapy+Splash (osx) 的 GUI 和用户交互

我正在寻找一种能够与 Scrapy+Splash 交互的方法。比如打开一个浏览器窗口看看发生了什么，如果需要也可以点击。

有什么好的方法吗？

方法来自

https://splash.readthedocs.io/en/stable/kernel.html#live-webkit-window

没用。

scrapy scrapy-splash splash-js-render

2019-03-04T19:52:54.687

0 投票

1 回答

1297 浏览

docker - 如何使用 docker 工具箱运行 splash

我正在尝试用 splash 来刮掉网络上的动态内容，我使用的是 Windows 10 家庭版。有没有办法使用 Docker 工具箱而不是 docker-desktop 来使用splash？

docker 工具箱说，它是无法运行 docker-desktop 的系统的替代方案。docker 桌面应用程序对于启动非常重要，它需要 Windows 10 专业版或企业版。

我找不到为启动配置 docker-toolbox 的方法。是否有任何指南可以帮助在我的 Windows 10 家庭版上使用 docker-toolbox 配置启动画面。谢谢！

docker scrapy splash-screen splash-js-render

2019-04-15T23:59:29.863

1 2 3 4 5 6 7 8 9 10

问题标签 [splash-js-render]

Reference