问题标签 [httrack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
42 浏览

linux - Httrack 不使用 cookies.txt 文件状态码 302

我正在尝试使用 Httrack 镜像网页目前我正在使用此命令

httrack -bN1 -sN0 -F "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36" "https://some_url_after_login.com" -O "/home/test/" --ext-depth=0 -v

女巫需要使用带有 -bN1 参数的 cookie 加载文件(我也尝试--cookies cookies.txt再次使用相同的结果)。

-sN0需要忽略 robots.txt 我最终得到 302 状态代码,并重定向到另一个页面,httrack 下载完全不同的页面登录并打开页面,这意味着它没有正确加载 cookie。任何提示如何正确使用此工具如何加载 cookie 等。我下载带有浏览器扩展的 cookie。

0 投票
0 回答
20 浏览

web - HTTrack:如何从主网站下载子文件夹?

所以我正在尝试下载网站的子文件夹:xxx.com(例如:xxx.com/ab 或 xxx.com/cd)

这就是我在扫描规则中的内容:

但我没有得到 xxx.com 内的所有文件夹

此外,我想下载所有子文件夹,尤其是那些我不知道它们存在的子文件夹(例如:xxx.com/abcdefg)

它们通常存在,但不会出现在我的 HTTrack 复制文件夹中。我在这里错过了什么吗?

0 投票
0 回答
16 浏览

httrack - 带有过期图像 URL 的 HTTrack

我正在保存网站的离线副本并使用 WinHttrack 来完成。在每个 html 页面上,一些图像、pdf 等都托管在 CDN 上,并且这些图像使用查询字符串令牌、id 以及最烦人的 unix 时间戳到期来加载。想象一下这样的事情:

此 url 仅在页面呈现后的几分钟内有效。尝试在 5 分钟后获取此图像将导致“访问被拒绝”。

在 Httrack 中,我假设这些图像的 url 是在页面第一次被抓取时在过程的早期捕获的,当 Httrack 尝试实际下载这个图像文件时,结果是一个“拒绝访问”的 xml 响应。

我的第一个测试是找到所有这些拒绝访问的文件,操作过期时间戳并再次下载。但是,过期时间戳似乎与其他查询字符串值绑定在一起并经过验证。

有没有办法强制 Httrack 完成一个 html 页面,在进入下一个页面之前下载该页面上的所有图像/pdf?或者,有没有办法强制 httrack 在下载 html 后立即下载这些图像,以便在 URL 过期之前捕获它们?或者甚至启动一个只下载图像/PDF的镜像,以便我可以合并到完整的镜像中?

0 投票
1 回答
12 浏览

unix - 如何告诉 HTTrack 开始整理 .tmp 文件

我正在使用 HTTrack 通过命令行进行网络爬网,下载 .tmp 文件需要很长时间。有没有办法强制它首先开始下载 .tmp 文件而不停止并重新开始整个过程​​?