我正在用 Java 开发一个网络爬虫。我正在寻找一个好的项目来开发基于它的爬虫。然而,实际上有超过几百个用 Java 编写的爬虫。我正在寻找的是一个相当简单的爬虫,它具有:
- 多线程功能
- 很棒的表演
- 基于最新的 Java 构建和新技术实现
- 一个很好的文档
- 没有很多不必要的功能(膨胀)
- 能够轻松集成到我的项目中
我正在用 Java 开发一个网络爬虫。我正在寻找一个好的项目来开发基于它的爬虫。然而,实际上有超过几百个用 Java 编写的爬虫。我正在寻找的是一个相当简单的爬虫,它具有:
我正在寻找的是一个相当简单的爬虫......
你不会真的发现,爬虫没有什么简单的!案例和要点,拥有这些功能并不简单(尤其是最后一个要点):
Nutch 是一个功能齐全的 Java 爬虫,可以满足您的大部分需求: http: //nutch.apache.org/
此外,我建议您查看这个问题:https ://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library