假设我已经连接并使用了 Nutch(2.2.1) + Solr (4.3),Apache Tika 的最佳集成是什么?
我知道 Tika 可以集成到 Nutch 和/或 Solr 中,但哪一个是最好的决定?
假设我已经连接并使用了 Nutch(2.2.1) + Solr (4.3),Apache Tika 的最佳集成是什么?
我知道 Tika 可以集成到 Nutch 和/或 Solr 中,但哪一个是最好的决定?
使用 Nutch 设置 Tika 插件,Nutch 将为您解析数据并为您完成所有艰苦的工作。
我建议也将其设置在 Solr 上,您可能希望通过该curl
命令将文档发送到 Solr,这将有助于在 Solr 上进行设置。它几乎没有额外的配置,也没有性能成本:
这里有设置 Tika 和提取请求处理程序的指南
在 Nutch 的解析阶段应用 tika 解析器。