问题标签 [httrack]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

64 问题

0 投票

0 回答

42 浏览

linux - Httrack 不使用 cookies.txt 文件状态码 302

我正在尝试使用 Httrack 镜像网页目前我正在使用此命令

httrack -bN1 -sN0 -F "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36" "https://some_url_after_login.com" -O "/home/test/" --ext-depth=0 -v

女巫需要使用带有 -bN1 参数的 cookie 加载文件（我也尝试--cookies cookies.txt再次使用相同的结果）。

-sN0需要忽略 robots.txt 我最终得到 302 状态代码，并重定向到另一个页面，httrack 下载完全不同的页面登录并打开页面，这意味着它没有正确加载 cookie。任何提示如何正确使用此工具如何加载 cookie 等。我下载带有浏览器扩展的 cookie。

2021-12-06T16:25:37.630

0 投票

0 回答

20 浏览

web - HTTrack：如何从主网站下载子文件夹？

所以我正在尝试下载网站的子文件夹：xxx.com（例如：xxx.com/ab 或 xxx.com/cd）

这就是我在扫描规则中的内容：

但我没有得到 xxx.com 内的所有文件夹

此外，我想下载所有子文件夹，尤其是那些我不知道它们存在的子文件夹（例如：xxx.com/abcdefg）

它们通常存在，但不会出现在我的 HTTrack 复制文件夹中。我在这里错过了什么吗？

web download httrack

2022-01-11T10:03:07.833

0 投票

0 回答

16 浏览

httrack - 带有过期图像 URL 的 HTTrack

我正在保存网站的离线副本并使用 WinHttrack 来完成。在每个 html 页面上，一些图像、pdf 等都托管在 CDN 上，并且这些图像使用查询字符串令牌、id 以及最烦人的 unix 时间戳到期来加载。想象一下这样的事情：

此 url 仅在页面呈现后的几分钟内有效。尝试在 5 分钟后获取此图像将导致“访问被拒绝”。

在 Httrack 中，我假设这些图像的 url 是在页面第一次被抓取时在过程的早期捕获的，当 Httrack 尝试实际下载这个图像文件时，结果是一个“拒绝访问”的 xml 响应。

我的第一个测试是找到所有这些拒绝访问的文件，操作过期时间戳并再次下载。但是，过期时间戳似乎与其他查询字符串值绑定在一起并经过验证。

有没有办法强制 Httrack 完成一个 html 页面，在进入下一个页面之前下载该页面上的所有图像/pdf？或者，有没有办法强制 httrack 在下载 html 后立即下载这些图像，以便在 URL 过期之前捕获它们？或者甚至启动一个只下载图像/PDF的镜像，以便我可以合并到完整的镜像中？

httrack

2022-01-25T21:23:34.477

0 投票

1 回答

12 浏览

unix - 如何告诉 HTTrack 开始整理 .tmp 文件

我正在使用 HTTrack 通过命令行进行网络爬网，下载 .tmp 文件需要很长时间。有没有办法强制它首先开始下载 .tmp 文件而不停止并重新开始整个过程？

unix command-line web-crawler information-retrieval httrack

2022-02-12T13:26:33.960

1 2 3 4 5 6 7 8 9 10

问题标签 [httrack]

linux - Httrack 不使用 cookies.txt 文件状态码 302

web - HTTrack：如何从主网站下载子文件夹？

httrack - 带有过期图像 URL 的 HTTrack

unix - 如何告诉 HTTrack 开始整理 .tmp 文件

Reference