java - Java网络爬虫

Question

Java 网络爬虫的最佳库是什么？我知道以下选择：

我需要选择一个选项来为一个可扩展的项目构建刮板。

score 1 · Accepted Answer

如果您正在抓取，为什么需要浏览器？只需对页面进行基本的 cURL 调用并获得响应即可为您提供抓取所需的内容。

这将有助于可扩展性。如果您想要一个浏览器，那么就选择 HTMLUnit，因为这将再次有助于提高可伸缩性。

score 1 · Accepted Answer

我最近被推荐使用Web Harvest，并且认为它开箱即用，除了一些关于 HTTP 500 响应代码的问题......

score 0 · Accepted Answer

使用jsoup，它可以很好地从 URL 获取响应，然后使用 XPath 表达式从响应中解析数据。我已经实现了这个并且效果很好。

3 回答 3