我正在尝试抓取一个网站,更具体地说是一个具有 SAML 身份Google Site
验证ManifoldCF
并将抓取的数据索引到 Apache Solr 的网站。但是当我抓取 URL 时,它让我302
重定向到登录页面,然后说RESPONSECODENOTINDEXABLE
.
我不确定我的身份验证是否正确。在manifoldCF 中,我们有HTTP basic
身份验证选项NTLM authentication
和Session-based
访问凭据身份验证方法。我使用Session based
了更像是基于表单的身份验证而不是身份验证的SAML
身份验证方法。
有没有人使用具有SAML
身份验证的manifoldCF 爬取了一个网站?如果没有manifoldCF
,有没有人能够通过 Apache Nutch 实现这一点,因为恐怕它也只提供HTTP
基本的Digest
和NTLM
身份验证。
任何见解都会有所帮助。如果这里有人认为可以轻松完成,可以提供有关该问题的更多信息。基本上,当我抓取https://sites.google.com/a/my-sub-domain.com时,它会重定向到 SSO 登录页面,并且抓取工具拒绝再抓取,并给出 302 错误。这是一个基于 Intranet 的网站。