1

我希望抓取整个网站并将其保存在本地离线。它应该有 2 个部分:

  1. 验证

这需要使用 Java 实现,并且我需要覆盖 HttpsURLConnection 逻辑以添加几行身份验证 (Hadoop) 以获取 url 响应 (keytabs)。如下所示:

     AuthenticatedURL.Token token = new AuthenticatedURL.Token();

    URL ur = new URL(url);
    //HttpsURLConnection.setDefaultHostnameVerifier(new     HostnameVerifierSSL());
    HttpsURLConnection con = (HttpsURLConnection) new AuthenticatedURL().openConnection(ur, token);
  1. 一旦所有的链接都通过了上面的认证,我们需要爬取整个网站直到depth=3,然后在本地离线保存为zip。

让我知道可能的解决方案。

4

0 回答 0