0

Java 网络爬虫的最佳库是什么?我知道以下选择:

  1. HTML单元
  2. 路宝浏览器

我需要选择一个选项来为一个可扩展的项目构建刮板。

4

3 回答 3

1

如果您正在抓取,为什么需要浏览器?只需对页面进行基本的 cURL 调用并获得响应即可为您提供抓取所需的内容。

这将有助于可扩展性。如果您想要一个浏览器,那么就选择 HTMLUnit,因为这将再次有助于提高可伸缩性。

于 2011-03-03T10:28:10.843 回答
1

我最近被推荐使用Web Harvest,并且认为它开箱即用,除了一些关于 HTTP 500 响应代码的问题......

于 2011-03-03T15:07:53.953 回答
0

使用jsoup,它可以很好地从 URL 获取响应,然后使用 XPath 表达式从响应中解析数据。我已经实现了这个并且效果很好。

于 2012-03-02T11:24:34.017 回答