0

我正在通过 Java 中的 Selenium 编写网络爬虫。以前我使用像 jsoup 和 HtmlUnit 这样的库来制作它们,但最近我遇到了 javascript 和 ajax 依赖页面的问题。

在做了一些谷歌之后,我认为 Selenium 是一个不错的选择,因为它可以完美地加载我想要的页面。但我担心它会变得太慢。

Selenium 是蜘蛛的好选择吗?有没有我可以参考的基于 Selenium 的蜘蛛示例???

4

1 回答 1

0

你可以试试Nutch,一个 Apache 的开源网络爬虫,它也适合多线程,虽然我不确定它是否处理 AJAX。您的其他非 Java 选项是 PhantomJS 和 CasperJS,它们是无头浏览器。它们比 Selenium 运行得更快,因为它们是无头的,但恕我直言,它们仍然很慢。

于 2013-06-16T12:07:11.337 回答