问题标签 [splash-js-render]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
233 浏览

python-3.x - Splash:收集截图元数据作为项目

我正在使用scrapy-splash来截取网页并输出带有一些元数据的 png。我知道scrapy会记录引擎使用时间戳等执行的所有操作,但是无法弄清楚如何在我的蜘蛛中访问该信息并将其传递给一个项目。任何建议或提示将不胜感激。

所需的元数据:1)目标站点IP;2)页面加载时的时间戳(UTC);3) 页面捕获时的时间戳 (UTC)

0 投票
1 回答
349 浏览

python - Splash + Scrapoxy:缺少 x-cache-proxyname 标头

我正在使用以下基础架构来抓取网站:

我正在通过Splash 执行端点发出请求,使用如下 Lu​​a 脚本:

我想检测禁令并删除被禁止的代理。根据Scrapoxy 文档

Scrapoxy 在响应中添加一个 HTTP 标头x-cache-proxyname

但我没有在response.headers. 唯一的标题是:

我究竟做错了什么?我应该在 Lua 脚本中添加一些内容以正确返回标头吗?


更新:实际上,这似乎不是飞溅问题。x-cache-proxyname即使通过 HTTPie 使用Scrapoxy 也不会返回。

0 投票
1 回答
231 浏览

python - Scrapy with Splash 仍然给 DEBUG: Crawled (200)

我是scrapy的新手,我似乎无法弄清楚为什么我在运行我的代码时会遇到这个问题。我从一个简单的教程中对此进行了编码,然后添加了 Splash。Splash 已启动并正在运行。

这是代码:

livros.py

项目.py

设置.py

以下是我在终端上不断出现的错误:

最后程序应该将数据保存到 json 文件中,但文件总是空白。你能帮我弄清楚我错过了什么吗?

0 投票
1 回答
681 浏览

web-scraping - Scrapy splash找不到元素

问题:

我正在使用scrapy splash 来抓取网页。然而,似乎css路径imageURL不返回任何元素,但name工作category正常。(xpath 和 selector 都是直接从 Chrome 复制而来的。)

我尝试过的事情:

起初我以为是因为调用时页面没有完全加载,parse所以我将waitSplashRequest 的参数更改为 5,但它没有帮助。我还从启动 GUI ( http://localhost:8050 )下载了 html 响应的副本,并验证 xpath/selectors 在下载的副本上都可以正常工作。在这里,我假设这个 html 正是 scrapy 所看到的,parse所以我无法理解为什么它不能在 scrapy 脚本中工作。

代码:

这是我的代码:

0 投票
2 回答
567 浏览

python - scrapy-splash 活动内容选择器适用于 shell 但不适用于蜘蛛

我刚开始使用 scrapy-splash 从 opentable.com 检索预订数量。以下在 shell 中工作正常:

然而,这个简单的蜘蛛返回一个空列表:

调用时:

我已经尝试过不成功

并增加了等待时间。

0 投票
0 回答
823 浏览

amazon-web-services - Scrapy + Splash 返回很多 504 Time Out 错误

我已按照 Splash 的常见问题解答进行生产设置,我的系统目前如下所示:

  • 1 个带有 6 个并发请求的 Scrapy Container。
  • 1 个 HAProxy 容器,用于对启动容器进行负载平衡
  • 2 个飞溅容器,每个有 3 个插槽。

docker stats用来监控我的设置,我从来没有得到超过 7% 的 CPU 使用率或超过 55% 的内存使用率。

我仍然得到很多

对于每个成功的请求,我都会得到 6-7 个这些超时。

我已经尝试过更改启动容器的插槽和并发请求的数量。我还尝试在 HAProxy 后面使用单个启动容器运行。我不断收到这些错误。

我在具有 1gb 内存的 AWS EC2 t2.micro 实例上运行。

我怀疑这个问题仍然与启动实例被淹没有关。您有什么建议可以减少 Splash 实例的负载吗?插槽和并发请求之间的比例是否良好?我应该限制请求吗?

0 投票
0 回答
527 浏览

docker - Scrapinghub/Splash - Aquarium 不适用于 docker-compose

我们正在尝试使用 Aquarium 来设置 Scrapinghub/Splash。在安装时,当我使用“docker-compose up”启动 Splash 时,它会抛出异常

Traceback(最近一次调用):文件“/usr/local/bin/docker-compose”,第 11 行,在 sys.exit(main()) 文件“/usr/local/lib/python2.7/dist-packages /compose/cli/main.py”,第 71 行,在 main command() 文件中“/usr/local/lib/python2.7/dist-packages/compose/cli/main.py”,第 124 行,在 perform_command 项目中= project_from_options('.', options) 文件“/usr/local/lib/python2.7/dist-packages/compose/cli/command.py”,第 41 行,在 project_from_options 兼容性=options.get('--compatibility '),文件“/usr/local/lib/python2.7/dist-packages/compose/cli/command.py”,第 121 行,在 get_project 主机=主机,环境=环境文件“/usr/local/lib/ python2.7/dist-packages/compose/cli/command.py”,第 92 行,在 get_client environment=environment, tls_version=get_tls_version(environment) File "/usr/local/lib/python2.7/dist-packages/compose/cli/docker_client.py", line 127, in docker_client client = APIClient(**kwargs ) 文件“/usr/local/lib/python2.7/dist-packages/docker/api/client.py”,第 113 行,在init config_dict=self._general_configs TypeError: load_config() got an unexpected keyword argument 'config_dict'

目前,我正在使用 Docker 版本 18.06.0-ce,docker-compose 版本 1.22.0。

请帮我解决这个问题。

0 投票
0 回答
29 浏览

webkit - Scrapinghub/Splash 网站页面获取时间随着并行线程呈指数增长

在我的试验中,我用 50 个并行线程点击了启动实例。每个线程都会获取 URL 的页面源。我的启动实例默认槽值为 50。这里,网站获取时间随着并行线程的数量呈指数增长。我可以获得 50 个 URL 的完美 HTML 源代码。但是从第 1 个 URL 到第 50 个 URL,时间分别从 2 秒增加到 45 秒。请帮助我减少获取页面源的时间。

我的示例 java 代码是

}

我正在使用 ScheduledExecutorService 调度这个可运行对象的 50 个线程。

如果我一个一个地修改页面源,它​​将完美地工作。但我需要同时进行。

0 投票
1 回答
1997 浏览

python - Scrapy with Splash 不会等待网站加载

我正在尝试通过 Python 脚本调用 Splash 来渲染和抓取交互式网站,基本上遵循本教程

输出看起来不错,但是它缺少一两秒后通过 ajax 加载的网站的一部分,这是我真正需要的内容。现在奇怪的是,如果我通过 web 界面直接访问容器内部的 Splash,设置相同的 URL,然后点击 Render 按钮,返回的响应是正确的。那么,唯一的问题是,为什么当 Python 脚本调用它时,它没有正确呈现网站?

0 投票
1 回答
240 浏览

javascript - Splash 不呈现 java 脚本

我的问题与这篇文章密切相关:Splash do not render the entire page

我无法以呈现以下网站的动态部分的方式配置启动画面:

https://www.wunderground.com/history/daily/ro/slava-cerchez%C4%83/LRTC/date/2018-8-03?cm_ven=localwx_history

页面看起来像这样

但它应该看起来像这样

这是启动脚本:

我已经尝试增加等待时间并禁用私人模式。如果有人能提示如何正确配置启动画面以便呈现 java 脚本部分,我将非常高兴。