1

我通常对 Httrack 没有任何问题,但是这一次,我发现它无法抓取具有非 ascii 字符的页面,例如这个日语 URL:

domain.com/リーク情报の真伪のほ/

(浏览器这样读取:domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3%81% A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2/)

Httrack 可以抓取 50% 的文件夹,但里面的 html 文件都是 0kb。其他 50% 的字符串完全是乱码,而且也是空的。

然后我尝试了 DOS/ISO 爬取选项,但它改变了太多结构(并使所有文件/文件夹大写)。

有什么方法可以让 httrack 在这些 url 上正常工作?

4

0 回答 0