虽然从我所看到的情况来看,HTML 抓取有很好的文档记录,并且我理解它的概念和实现,但从隐藏在身份验证表单后面的内容中抓取的最佳方法是什么。我指的是从我合法有权访问的内容中抓取,因此我正在寻找一种自动提交登录数据的方法。
我能想到的只是设置一个代理,从手动登录中捕获吞吐量,然后设置一个脚本来欺骗该吞吐量,作为 HTML 抓取执行的一部分。就语言而言,它可能会在 Perl 中完成。
有没有人有这方面的经验,或者只是一般的想法?
编辑 这已经回答过,但使用.NET。虽然它验证了我认为应该如何完成,但是否有人有 Perl 脚本来执行此操作?