2

我只是在 Solr 的研究阶段,但到目前为止,似乎要索引非结构化文本文件,我必须使用 Tika 将其转换为 XML?这是真的?我觉得奇怪的是 Lucene 可以在不进行任何转换的情况下对任意文本进行标记和索引,但是 Solr 需要这个额外的转换为 XML 的步骤。我想也许我只是错过了一些东西。

我正在研究每天对数百万个文件和数百 GB 的近实时全文搜索,因此额外的 Tika 转换很麻烦。

4

2 回答 2

2

感谢您的回复。@javanna 我的问题最好被问为“无需以任何方式预处理输入”。他们中的太多人来得太快了,他们太大了,速度很重要。@Oklein 在研究您提到的 DIH 时,我偶然发现了这份文件:

http://www.lucidimagination.com/sites/default/files/file/whitepaper/LIWP_IndexingTextandHTMLFilesWithSolr.pdf

基本上我追求的答案是,使用 ExtractingRequestHandler 处理纯文本文件并即时添加额外的字段。现在我正在使用 cURL,它可以使用 GET 参数添加字段,并将使用 SolrJ 进行等效操作。

http://wiki.apache.org/solr/ExtractingRequestHandler#SolrJ

于 2012-08-07T15:01:10.387 回答
1

查看DIH中的 PlainTextEntityProcessor

于 2012-08-04T12:27:43.027 回答