0

我正在用 Java 开发一个网络爬虫。我正在寻找一个好的项目来开发基于它的爬虫。然而,实际上有超过几百个用 Java 编写的爬虫。我正在寻找的是一个相当简单的爬虫,它具有:

  • 多线程功能
  • 很棒的表演
  • 基于最新的 Java 构建和新技术实现
  • 一个很好的文档
  • 没有很多不必要的功能(膨胀)
  • 能够轻松集成到我的项目中
4

1 回答 1

2

我正在寻找的是一个相当简单的爬虫......

你不会真的发现,爬虫没有什么简单的!案例和要点,拥有这些功能并不简单(尤其是最后一个要点):

  • 多线程功能
  • 很棒的表演
  • 基于最新的 Java 构建和新技术实现
  • 一个很好的文档
  • 没有很多不必要的功能(膨胀)
  • 能够轻松集成到我的项目中

Nutch 是一个功能齐全的 Java 爬虫,可以满足您的大部分需求: http: //nutch.apache.org/

此外,我建议您查看这个问题:https ://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library

于 2012-04-17T20:39:34.300 回答