javascript - 使用 Ajax/JavaScript 的网络爬虫

Question

我曾尝试使用HtmlUnit实现一个爬虫，它可以获取执行Ajax请求和javascript执行产生的结果。但是，HtmlUnit并没有那么强大，无法满足我的需求，因为它无法获取执行生成的所有渲染DOM元素JavaScript 或 AJax。然后我也尝试使用 pywebkitgtk 和 pyQtwebkit，它确实生成了一些动态 DOM 元素。但是它们工作不稳定，我不知道如何解决它。似乎有人也提到了使用 selenium。有人可以给我一些建议来实现 Ajax Crawler 吗？非常感谢！

score 1 · Accepted Answer

PhantomJS可能是解决您问题的好方法。您还可以使用一些爬虫 api，例如Unicrawler来简化这一点。希望它有效。

javascript - 使用 Ajax/JavaScript 的网络爬虫

1 回答 1

Related

Reference