我希望抓取整个网站并将其保存在本地离线。它应该有 2 个部分:
- 验证
这需要使用 Java 实现,并且我需要覆盖 HttpsURLConnection 逻辑以添加几行身份验证 (Hadoop) 以获取 url 响应 (keytabs)。如下所示:
AuthenticatedURL.Token token = new AuthenticatedURL.Token();
URL ur = new URL(url);
//HttpsURLConnection.setDefaultHostnameVerifier(new HostnameVerifierSSL());
HttpsURLConnection con = (HttpsURLConnection) new AuthenticatedURL().openConnection(ur, token);
- 一旦所有的链接都通过了上面的认证,我们需要爬取整个网站直到depth=3,然后在本地离线保存为zip。
让我知道可能的解决方案。