我正在尝试复制网站以供离线查看而没有任何依赖关系。
我想复制没有 SCRIPT 标记(特别是 javascript)和没有外部脚本 (.js) 的 HTML。
一直在尝试使用WGET --ignore-tags
HTTrack 来做到这一点,但它没有按预期工作。脚本被作为一个整体复制。
我正在尝试复制网站以供离线查看而没有任何依赖关系。
我想复制没有 SCRIPT 标记(特别是 javascript)和没有外部脚本 (.js) 的 HTML。
一直在尝试使用WGET --ignore-tags
HTTrack 来做到这一点,但它没有按预期工作。脚本被作为一个整体复制。
例如,在Headless 模式下调用 Chromechrome --headless --disable-gpu --dump-dom https://www.chromestatus.com/
将转储呈现的 DOM 的 HTML,而无需任何 JavaScript。
这篇文章描述了如何使用 Headless Chrome 和 Puppeteer 构建爬虫。