url - 遇到日语编码的 URL 时 Httrack 出错

问问题 2016-09-29T01:47:49.323

278 次

我通常对 Httrack 没有任何问题，但是这一次，我发现它无法抓取具有非 ascii 字符的页面，例如这个日语 URL：

domain.com/リーク情报の真伪のほ/

（浏览器这样读取：domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3%81% A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2/)

Httrack 可以抓取 50% 的文件夹，但里面的 html 文件都是 0kb。其他 50% 的字符串完全是乱码，而且也是空的。

然后我尝试了 DOS/ISO 爬取选项，但它改变了太多结构（并使所有文件/文件夹大写）。

有什么方法可以让 httrack 在这些 url 上正常工作？

url - 遇到日语编码的 URL 时 Httrack 出错

0 回答 0

Related

Reference