lucene - 使用 Tika 解析流（阅读器）并同时使用 Lucene 对其进行索引

翻译自：https://stackoverflow.com/questions/14977052 2013-02-20T10:04:06.427

547 次

3

我正在阅读文档，想知道是否有可能不读取两次流以便用 Tika 解析它，获取元数据 + 内容并在 Lucene 中对其进行索引？

我想避免在解析后将文件存储在内存中，因为它可能太大。

我正在阅读以下链接，它似乎将解析后的文档内容保存在内存中 - http://johnreece.com/wordpress/2011/03/13/a-concise-tikalucene-content-parsing-and-indexing-example /

（也许以某种方式与“无论如何使 Lucene 字段存储并通过阅读器流式传输”）

（此外，我想确保 Lucene 的TextField处理Reader没有String使用它，这应该会消耗内存）

0 回答 0