javascript - 复制网站以在不使用 JavaScript 的情况下进行离线查看（html 和 .js 外部的脚本标签）

Question

我正在尝试复制网站以供离线查看而没有任何依赖关系。

我想复制没有 SCRIPT 标记（特别是 javascript）和没有外部脚本 (.js) 的 HTML。

一直在尝试使用WGET --ignore-tagsHTTrack 来做到这一点，但它没有按预期工作。脚本被作为一个整体复制。

score 0 · Accepted Answer

例如，在Headless 模式下调用 Chromechrome --headless --disable-gpu --dump-dom https://www.chromestatus.com/将转储呈现的 DOM 的 HTML，而无需任何 JavaScript。

这篇文章描述了如何使用 Headless Chrome 和 Puppeteer 构建爬虫。

1 回答 1