0

我正在使用以 Apache Lucene (v 3.6.1) 为核心的商业产品(发现工具)。我即将摄取约 60K 全文以及元数据,我想了解索引大小如何变化。理想情况下,我希望每次都索引 5/10K 纯文本束并评估索引增长(我希望这是线性的)。我的理解是主文件是.CFS(复合文件),但我似乎只有以下格式:

.FDT (field index)
.FDX (field data)
.FNM (fields)
.FRQ (frequencies)
.NRM (norms)
.PRX (positions)
.TII (term info index)
.TIS (term infos)
.segment.GEN and segment_N (segments)

(我已阅读文件。CFS 从版本 3.0.3 变为可选,如果我错了,请纠正我)。推荐的方法是什么?任何建议都非常受欢迎!

确实谢谢

我。

4

0 回答 0