Java 网络爬虫的最佳库是什么?我知道以下选择:
- 硒
- HTML单元
- 路宝浏览器
我需要选择一个选项来为一个可扩展的项目构建刮板。
Java 网络爬虫的最佳库是什么?我知道以下选择:
我需要选择一个选项来为一个可扩展的项目构建刮板。
如果您正在抓取,为什么需要浏览器?只需对页面进行基本的 cURL 调用并获得响应即可为您提供抓取所需的内容。
这将有助于可扩展性。如果您想要一个浏览器,那么就选择 HTMLUnit,因为这将再次有助于提高可伸缩性。
我最近被推荐使用Web Harvest,并且认为它开箱即用,除了一些关于 HTTP 500 响应代码的问题......
使用jsoup,它可以很好地从 URL 获取响应,然后使用 XPath 表达式从响应中解析数据。我已经实现了这个并且效果很好。