0

假设我已经连接并使用了 Nutch(2.2.1) + Solr (4.3),Apache Tika 的最佳集成是什么?

我知道 Tika 可以集成到 Nutch 和/或 Solr 中,但哪一个是最好的决定?

4

2 回答 2

1

使用 Nutch 设置 Tika 插件,Nutch 将为您解析数据并为您完成所有艰苦的工作。

我建议也将其设置在 Solr 上,您可能希望通过该curl命令将文档发送到 Solr,这将有助于在 Solr 上进行设置。它几乎没有额外的配置,也没有性能成本:

这里有设置 Tika 和提取请求处理程序的指南

于 2013-08-21T08:29:45.747 回答
0

在 Nutch 的解析阶段应用 tika 解析器。

于 2013-08-21T07:25:21.070 回答