5

问题

下载动态加载链接/图像的网站的完整离线工作副本

研究

Stackoverflow 上有一些问题(例如[1][2][3])解决了这个问题,其中大多数问题都使用wgethttrack获得了最佳答案,这两个问题都失败了(如果我错了,请纠正我)在动态加载链接或使用srcset而不是srcforimg标记的页面上 - 或通过 JS 加载的任何内容。一个相当明显的解决方案是Selenium,但是,如果您曾经在生产中使用过 Selenium,您很快就会开始看到这样的决定引起的问题(资源繁重,使用全头驱动程序非常复杂,事实上它不是为那),话虽这么说,有人声称多年来一直在生产中轻松使用它

预期解决方案

一个脚本(最好在 python 中),它解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以做到这一点。如果您的解决方案是“所以实现您自己的”,那么首先提出这个问题是没有意义的,我正在寻求现有的实现。

例子

  1. Shopify.com
  2. 使用 Wix 构建的网站
4

1 回答 1

2

现在有无头版本Selenium和替代方案,例如PhantomJS,可以与小脚本一起使用来抓取任何动态加载的网站。

我在这里实现了一个通用刮板,并 在此处解释了更多关于该主题的信息

于 2019-10-23T14:10:19.763 回答