我需要一个用java开发的开源网络爬虫,支持增量爬取。
网络爬虫应该很容易定制并与 solr 或 elasticsearch 集成。
它应该是一个活跃的,正在进一步发展,具有更多功能。
Aperture 是一个优秀的爬虫之一,它具有我提到的所有功能,但它不是一个活跃的爬虫,并且由于许可证(如果我将其用于商业目的)我忽略了它们的依赖。
Nutch - 一个网络爬虫,它具有更多支持 hadoop 的功能。但是我浏览了许多网站和教程,没有合适的文档,找到用于在 Windows 中以编程方式自定义它的 api。我可以在 eclipse 中编辑代码,但是在运行 map reduce 作业时会导致很多错误。没有用于 nutch 的 java api 来实现像孔径一样。
Crawl4j 是一个很好的网络爬虫,但它没有增量爬取功能,而且我没有检查许可证问题。
是否有任何其他爬虫具有我提到的所有功能,或者有没有办法使用上述任何一种爬虫来满足我的要求?
有用的答案将不胜感激。