尽管有很多关于这些主题的帖子,但我的问题有点具体。我需要解析几个网站,一旦完成,我需要向它发送一些数据。例如,假设网站 A 为我提供了一个搜索选项卡,我需要以编程方式向它提供数据。结果页面可能因目标站点的更新而异。我想编写这样一个爬虫。那么哪种工具/语言最能实现这一点?我已经精通java和C,所以任何基于这些的东西都会非常有帮助。
问问题
106 次
1 回答
0
我建议使用phantomjs。它完全免费,支持 Windows、Linux、Mac。
- 安装非常简单。
- 使用命令行执行非常简单。
- 社区很大,解决直截了当的问题是微不足道的。
- 它使用 JavaScript 作为脚本语言,所以我想,如果你有 Java 背景,你会没事的。
- 您必须熟悉 DOM 结构。好吧,您不能在不知情的情况下编写爬虫(即使您选择完全可视化的解决方案)。
一切都取决于爬虫的执行频率:PhantomJs 非常适合长期工作。如果您正在寻找一次性解决方案,请使用其他视觉工具,例如iMacros 。它可以作为扩展在 Mozilla 内部使用(免费),并且有一个需要付费的独立版本。
干杯
于 2013-03-27T22:15:52.123 回答