我正在阅读文档,想知道是否有可能不读取两次流以便用 Tika 解析它,获取元数据 + 内容并在 Lucene 中对其进行索引?
我想避免在解析后将文件存储在内存中,因为它可能太大。
我正在阅读以下链接,它似乎将解析后的文档内容保存在内存中 - http://johnreece.com/wordpress/2011/03/13/a-concise-tikalucene-content-parsing-and-indexing-example /
(也许以某种方式与“无论如何使 Lucene 字段存储并通过阅读器流式传输”)
(此外,我想确保 Lucene 的TextField
处理Reader
没有String
使用它,这应该会消耗内存)