1

蜘蛛应该:

  1. 通过发布登录表单登录
  2. 通过 cookie 维护登录状态
  3. 跟随主页中的随机链接

蜘蛛的目的是让新网站保持忙碌,模拟许多用户正在浏览它。

我看过 LWP 和 WWW::Mechanize。不确定应该使用哪个模块,或任何其他更好的建议。如果您有代码示例非常好。

谢谢。

4

1 回答 1

3

WWW::Mechanize,介于这两种选择之间。它在引擎盖下有 LWP::UserAgent。我没有使用 CPAN 模块 WWW::Spider 的经验,并且知道它远不如 WWW::Mechanize 广为人知,但您也可以看看它是否满足您的需求。不过,我会投票支持经过充分验证的选项。

于 2011-06-08T10:18:53.337 回答