我正在尝试抓取一个网站,更具体地说是一个具有 SAML 身份Google Site验证ManifoldCF并将抓取的数据索引到 Apache Solr 的网站。但是当我抓取 URL 时,它让我302重定向到登录页面,然后说RESPONSECODENOTINDEXABLE.
我不确定我的身份验证是否正确。在manifoldCF 中,我们有HTTP basic身份验证选项NTLM authentication和Session-based访问凭据身份验证方法。我使用Session based了更像是基于表单的身份验证而不是身份验证的SAML身份验证方法。
有没有人使用具有SAML身份验证的manifoldCF 爬取了一个网站?如果没有manifoldCF,有没有人能够通过 Apache Nutch 实现这一点,因为恐怕它也只提供HTTP基本的Digest和NTLM身份验证。
任何见解都会有所帮助。如果这里有人认为可以轻松完成,可以提供有关该问题的更多信息。基本上,当我抓取https://sites.google.com/a/my-sub-domain.com时,它会重定向到 SSO 登录页面,并且抓取工具拒绝再抓取,并给出 302 错误。这是一个基于 Intranet 的网站。