1
  • 我需要一个用java开发的开源网络爬虫,支持增量爬取。

  • 网络爬虫应该很容易定制并与 solr 或 elasticsearch 集成。

  • 它应该是一个活跃的,正在进一步发展,具有更多功能。

  • Aperture 是一个优秀的爬虫之一,它具有我提到的所有功能,但它不是一个活跃的爬虫,并且由于许可证(如果我将其用于商业目的)我忽略了它们的依赖。

  • Nutch - 一个网络爬虫,它具有更多支持 hadoop 的功能。但是我浏览了许多网站和教程,没有合适的文档,找到用于在 Windows 中以编程方式自定义它的 api。我可以在 eclipse 中编辑代码,但是在运行 map reduce 作业时会导致很多错误。没有用于 nutch 的 java api 来实现像孔径一样。

  • Crawl4j 是一个很好的网络爬虫,但它没有增量爬取功能,而且我没有检查许可证问题。

是否有任何其他爬虫具有我提到的所有功能,或者有没有办法使用上述任何一种爬虫来满足我的要求?

有用的答案将不胜感激。

4

1 回答 1

0

看起来与Norconex HTTP Collector完美匹配:

  • 它是 100% 用 Ja​​va 编写的。
  • 它在 Windows 上完全运行(无需 Cygwin 或 Linux/Unix VM)。
  • 它有很好的示例和一个提问/提出问题的论坛(github)。
  • 它支持增量爬取,检测修改的文档以及删除的文档。
  • 它支持 Solr 和 Elasticsearch,以及更多(通过使用其“提交者”)。
  • 它具有广泛的可配置性/灵活性。它很容易与它集成并为其提供自定义功能,而无需学习复杂的插件机制(实现一个接口,将其放在类路径中,然后瞧)。
  • 它的发展非常活跃。

它由企业搜索专家公司 Norconex 维护。问题迅速解决。版本 2.0.0 正在大力开发中,很快就会带来许多新功能(语言检测、文档拆分等)。

它是 GPL,但如果 GPL 对您有问题,Norconex 会提供商业许可。

它还具有您未列出的许多其他功能,例如在将文档内容发送到搜索引擎之前对其进行操作的能力。它还支持站点地图、机器人规则等。我邀请您尝试一下:http ://www.norconex.com/product/collector-http/

于 2014-10-11T07:21:17.117 回答