2

我曾尝试使用HtmlUnit实现一个爬虫,它可以获取执行Ajax请求和javascript执行产生的结果。但是,HtmlUnit并没有那么强大,无法满足我的需求,因为它无法获取执行生成的所有渲染DOM元素JavaScript 或 AJax。然后我也尝试使用 pywebkitgtk 和 pyQtwebkit,它确实生成了一些动态 DOM 元素。但是它们工作不稳定,我不知道如何解决它。似乎有人也提到了使用 selenium。有人可以给我一些建议来实现 Ajax Crawler 吗?非常感谢!

4

1 回答 1

1

PhantomJS可能是解决您问题的好方法。您还可以使用一些爬虫 api,例如Unicrawler来简化这一点。希望它有效。

于 2015-01-07T10:40:40.753 回答