java - Lucene 索引 - 大量文档/短语

Question

我应该使用什么方法来索引以下文件集。

每个文件包含大约 500k 行字符 (400MB) - 字符不是单词，它们是，可以说是随机字符，没有空格。

我需要能够找到包含给定 12 个字符的字符串的每一行，例如：

行：AXXXXXXXXXXXXJJJJKJIDJUD....等最多 200 个字符

有趣的部分：XXXXXXXXXXXX

在搜索时，我只对字符 1-13 感兴趣（所以XXXXXXXXXXXX）。搜索后，我希望能够读取包含XXXXXXXXXXXX的行，而无需遍历文件。

我写了以下 poc （简化为问题：

索引：

 while ( (line = br.readLine()) != null ) {
        doc = new Document();
        Field fileNameField = new StringField(FILE_NAME, file.getName(), Field.Store.YES);
        doc.add(fileNameField);
        Field characterOffset = new IntField(CHARACTER_OFFSET, charsRead, Field.Store.YES);
        doc.add(characterOffset);
        String id = "";
        try {
            id = line.substring(1, 13);
            doc.add(new TextField(CONTENTS, id, Field.Store.YES));
            writer.addDocument(doc);
        } catch ( IndexOutOfBoundsException ior ) {
            //cut off for sake of question
        } finally {
            //simplified snipped for sake of question. characterOffset is amount of chars to skip which reading a file (ultimately bytes read)
             charsRead += line.length() + 2;

        }
    }

搜索：

RegexpQuery q = new RegexpQuery(new Term(CONTENTS, id), RegExp.NONE); //cause id can be a regexp concernign 12char string

TopDocs results = searcher.search(q, Integer.MAX_VALUE);
ScoreDoc[] hits = results.scoreDocs;
int numTotalHits = results.totalHits;
Map<String, Set<Integer>> fileToOffsets = new HashMap<String, Set<Integer>>();

for ( int i = 0; i < numTotalHits; i++ ) {
    Document doc = searcher.doc(hits[i].doc);
    String fileName = doc.get(FILE_NAME);
    if ( fileName != null ) {
        String foundIds = doc.get(CONTENTS);
        Set<Integer> offsets = fileToOffsets.get(fileName);
        if ( offsets == null ) {
            offsets = new HashSet<Integer>();
            fileToOffsets.put(fileName, offsets);
        }
        String offset = doc.get(CHARACTER_OFFSET);
        offsets.add(Integer.parseInt(offset));
    }
}

这种方法的问题在于，它将每行创建一个文档。

您能否给我一些提示，如何使用 lucene 解决这个问题，以及 lucene 是否可以解决这个问题？

score 0 · Accepted Answer

不要为每次迭代添加一个新文档，而是使用相同的文档并继续向其添加具有相同名称的字段，例如：

Document doc = new Document();
Field fileNameField = new StringField(FILE_NAME, file.getName(), Field.Store.YES);
doc.add(fileNameField);
String id;
while ( (line = br.readLine()) != null ) {
    id = "";
    try {
        id = line.substring(1, 13);
        doc.add(new TextField(CONTENTS, id, Field.Store.YES));
        //What is this (characteroffset) field for?
        Field characterOffset = new IntField(CHARACTER_OFFSET, bytesRead, Field.Store.YES);
        doc.add(characterOffset);
    } catch ( IndexOutOfBoundsException ior ) {
        //cut off
    } finally {
        if ( "".equals(line) ) {
            bytesRead += 1;
        } else {
            bytesRead += line.length() + 2;
        }
    }
}
writer.addDocument(doc);

这会将每一行的 id 作为新术语添加到同一字段中。相同的查询应该继续工作。

不过，我不确定您如何使用该CharacterOffset字段。与 id 一样，每个值都将作为另一个术语附加到字段的末尾。它不会直接与特定术语相关联，除了可以假设字段中的标记数量相同。如果您需要检索特定行，而不是整个文件的内容，则当前逐行索引的方法可能是最合理的。

java - Lucene 索引 - 大量文档/短语

1 回答 1

Related

Reference