java - 使用 lucene 获取文档中的单词位置

Question

我想知道如何使用 Lucene 获取文档中单词的位置我已经生成了索引文件，我想从索引中提取一些信息，例如索引单词、单词在文档中的位置等

我创建了一个这样的阅读器：

public void readIndex(Directory indexDir) throws IOException {
    IndexReader ir = IndexReader.open(indexDir);
    Fields fields =  MultiFields.getFields(ir);
    System.out.println("TOTAL DOCUMENTS : " + ir.numDocs());

    for(String field : fields) {
        Terms terms = fields.terms(field);
        TermsEnum termsEnum = terms.iterator(null);
        BytesRef text;
        while((text = termsEnum.next()) != null) {
            System.out.println("text = " + text.utf8ToString() + "\nfrequency = " + termsEnum.totalTermFreq());
        }
    }
}

我将作者修改为：

org.apache.lucene.document.Document doc = new org.apache.lucene.document.Document();

                FieldType fieldType = new FieldType();
                fieldType.setStoreTermVectors(true);
                fieldType.setStoreTermVectorPositions(true);
                fieldType.setIndexed(true);

                doc.add(new Field("word", new BufferedReader(new InputStreamReader(fis, "UTF-8")), fieldType));

我试图通过调用返回 true的terms.hasPositions()来读取该术语是否具有位置但是不知道哪个函数可以给我位置？

score 1 · Accepted Answer

在您尝试检索位置信息之前，您必须首先确保在启用位置信息的情况下进行索引。

TermsEnum.DocsAndPositionsEnum：获取当前任期的 DocsAndPositionsEnum。当枚举未定位时不要调用它。如果没有索引位置，此方法将返回 null。

java - 使用 lucene 获取文档中的单词位置

1 回答 1

Related

Reference