0

尝试备份(下载/镜像)网站以进行存档。该站点显然位于 Cloudflare 上。我通常的工具是wget,但它对我来说失败了(即使使用 cookie cfduid 标头)。不工作的wget命令示例:

wget -U "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --header="Accept: text/html" --header="Cookie: __cfduid=someverylongcfduid" --mirror - -convert-links --adjust-extension --page-requisites --no-parent -w 1m www.domain.tld

所以我想我会回到我可信赖的朋友那里httrack,但它也失败了(即使使用导出的 cookie)。不工作的httrack命令示例:

httrack -F "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --mirror -b1 -s0 -%c1 -c1 --referer "https://www.domain.tld/ " "https://www.domain.tld/"

我不想破坏网站,所以限制连接和等待是完全可以的。我宁愿让它运行得更长/更慢,并在此过程中成为一个好网民

目前我遇到了301(永久移动)403(禁止)错误,我假设这是由于 Cloudflare 造成的。该网站大量使用 javascript :-( 有没有人有任何提示/建议/解决方案来存档这样的网站?

4

1 回答 1

0

我认为您应该尝试使用硒。

于 2021-07-01T08:26:10.440 回答