嗨,我能够抓取未使用 html 敏捷包保护的 http 网站。但是某些受 https 保护的网站将需要身份验证(可能是表单身份验证)才能查看其内容,因此我无法抓取。我看到了 IBM 的 omnifind 爬虫插件,我们可以将它用于 .net。你们可以请提示如何处理这个问题。
问问题
250 次
1 回答
0
您显然需要凭据,因此您应该理清身份验证位是如何工作的。
假设它是基于表单的,那么使用 CookieContainer ( http://msdn.microsoft.com/en-us/library/dd920298(v=vs.95).aspx)实现某些东西应该不会有任何问题
该链接底部的示例显示了如何迭代从站点返回的 cookie。
这是一个现有的问题,也应该可以帮助指导您:WebRequest class to post data to login form
干杯。
于 2013-02-16T18:11:06.927 回答