我只是在 Solr 的研究阶段,但到目前为止,似乎要索引非结构化文本文件,我必须使用 Tika 将其转换为 XML?这是真的?我觉得奇怪的是 Lucene 可以在不进行任何转换的情况下对任意文本进行标记和索引,但是 Solr 需要这个额外的转换为 XML 的步骤。我想也许我只是错过了一些东西。
我正在研究每天对数百万个文件和数百 GB 的近实时全文搜索,因此额外的 Tika 转换很麻烦。
我只是在 Solr 的研究阶段,但到目前为止,似乎要索引非结构化文本文件,我必须使用 Tika 将其转换为 XML?这是真的?我觉得奇怪的是 Lucene 可以在不进行任何转换的情况下对任意文本进行标记和索引,但是 Solr 需要这个额外的转换为 XML 的步骤。我想也许我只是错过了一些东西。
我正在研究每天对数百万个文件和数百 GB 的近实时全文搜索,因此额外的 Tika 转换很麻烦。