对 HTML 和 XML 文档(本地或基于 Web)使用并在 Lucene / Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的,但不是必须的。
7 回答
在我看来,这是一个非常重要的漏洞,它阻碍了 Solr 的广泛采用。新的 DataImportHandler 是导入结构化数据的良好第一步,但 Solr 没有一个好的文档摄取管道。Nutch 确实有效,但是 Nutch 爬虫和 Solr 之间的集成有点笨拙。
我已经尝试了所有我能找到的开源爬虫,但它们都没有与 Solr 开箱即用地集成。
密切关注 OpenPipeline 和 Apache Tika。
我试过 nutch,但很难与 Solr 集成。我会看看Heritrix。它有一个广泛的插件系统,可以很容易地与 Solr 集成,而且它的爬行速度要快得多。它广泛使用线程来加快进程。
我建议您查看Nutch以获得一些灵感:
Nutch 是开源网络搜索软件。它建立在 Lucene Java 之上,添加了 Web 特性,例如爬虫、链接图数据库、HTML 和其他文档格式的解析器等。
还要检查 Apache Droids [ http://incubator.apache.org/droids/]——这希望不是一个简单的蜘蛛/爬虫/工人框架。
它是新的,现成的还不容易使用(需要一些时间才能运行),但值得关注。
Nutch 可能是您最接近的匹配项,但它不太灵活。
如果你需要更多东西,你将不得不破解你自己的爬虫。它并不像听起来那么糟糕,每种语言都有网络库,所以你只需要连接一些任务队列管理器与 HTTP 下载器和 HTML 解析器,这并不是真正的工作。你很可能只需要一个盒子就可以逃脱,因为爬行主要是带宽密集型的,而不是 CPU 密集型的。
C#,但生成 Lucene(Java 和 C#)可使用的索引文件。
有人试过Xapian吗?它的接缝比 solr 快得多,并且是用 c++ 编写的。