0

尽管有很多关于这些主题的帖子,但我的问题有点具体。我需要解析几个网站,一旦完成,我需要向它发送一些数据。例如,假设网站 A 为我提供了一个搜索选项卡,我需要以编程方式向它提供数据。结果页面可能因目标站点的更新而异。我想编写这样一个爬虫。那么哪种工具/语言最能实现这一点?我已经精通java和C,所以任何基于这些的东西都会非常有帮助。

4

1 回答 1

0

我建议使用phantomjs。它完全免费,支持 Windows、Linux、Mac。

  • 安装非常简单。
  • 使用命令行执行非常简单。
  • 社区很大,解决直截了当的问题是微不足道的。
  • 它使用 JavaScript 作为脚本语言,所以我想,如果你有 Java 背景,你会没事的。
  • 您必须熟悉 DOM 结构。好吧,您不能在不知情的情况下编写爬虫(即使您选择完全可视化的解决方案)。

一切都取决于爬虫的执行频率:PhantomJs 非常适合长期工作。如果您正在寻找一次性解决方案,请使用其他视觉工具,例如iMacros 。它可以作为扩展在 Mozilla 内部使用(免费),并且有一个需要付费的独立版本。

干杯

于 2013-03-27T22:15:52.123 回答