16

对 HTML 和 XML 文档(本地或基于 Web)使用并在 Lucene / Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的,但不是必须的。

4

7 回答 7

11

在我看来,这是一个非常重要的漏洞,它阻碍了 Solr 的广泛采用。新的 DataImportHandler 是导入结构化数据的良好第一步,但 Solr 没有一个好的文档摄取管道。Nutch 确实有效,但是 Nutch 爬虫和 Solr 之间的集成有点笨拙。
我已经尝试了所有我能找到的开源爬虫,但它们都没有与 Solr 开箱即用地集成。
密切关注 OpenPipeline 和 Apache Tika。

于 2008-11-12T21:28:16.720 回答
6

我试过 nutch,但很难与 Solr 集成。我会看看Heritrix。它有一个广泛的插件系统,可以很容易地与 Solr 集成,而且它的爬行速度要快得多。它广泛使用线程来加快进程。

于 2009-05-01T21:06:02.113 回答
4

我建议您查看Nutch以获得一些灵感:

Nutch 是开源网络搜索软件。它建立在 Lucene Java 之上,添加了 Web 特性,例如爬虫、链接图数据库、HTML 和其他文档格式的解析器等。

于 2008-11-12T01:19:12.947 回答
4

还要检查 Apache Droids [ http://incubator.apache.org/droids/]——这希望不是一个简单的蜘蛛/爬虫/工人框架。

它是新的,现成的还不容易使用(需要一些时间才能运行),但值得关注。

于 2008-11-14T17:33:38.137 回答
2

Nutch 可能是您最接近的匹配项,但它不太灵活。

如果你需要更多东西,你将不得不破解你自己的爬虫。它并不像听起来那么糟糕,每种语言都有网络库,所以你只需要连接一些任务队列管理器与 HTTP 下载器和 HTML 解析器,这并不是真正的工作。你很可能只需要一个盒子就可以逃脱,因为爬行主要是带宽密集型的,而不是 CPU 密集型的。

于 2009-01-11T01:02:18.883 回答
2

http://arachnode.net

C#,但生成 Lucene(Java 和 C#)可使用的索引文件。

于 2013-03-03T20:27:03.303 回答
0

有人试过Xapian吗?它的接缝比 solr 快得多,并且是用 c++ 编写的。

于 2009-10-08T11:17:22.410 回答