java - 在 Lucene 索引中搜索特定术语

Question

我正在尝试使用一些我知道已编入索引的特定单词对 Lucene 索引进行搜索，但结果不是很好。

如何对特定术语（“129202”）执行查询？我尝试在字符串的开头添加加号，但它不起作用。

我的查询：

QueryParser q = new QueryParser(Version.LUCENE_42, "tags", new SimpleAnalyzer(Version.LUCENE_42));
Query query = q.parse("sapatilha feminina ramarim 129202 cinza");

下面是我想要获取的索引文档（xml）

<?xml version="1.0" encoding="UTF-8"?>
<product>
 <tags>
   <tag>Sapatilha Pedras Preto</tag>
   <tag>ramarin</tag>
   <tag>ramarin 129202</tag>
   <tag>preto</tag>
 </tags>
 <id>71</id>
 <url>http://www.dafiti.com.br/Sapatilha-Pedras-Preto-1135428.html</url>
</product>

score 1 · Accepted Answer

SimpleAnalyzer是您用来查询（我假设索引）的分析器，它使用LetterTokenizer，根据文档：

...将标记定义为相邻字母的最大字符串，由 java.lang.Character.isLetter() 定义

也就是说，不是数字。此分析器将完全丢失数字。我建议您研究一个不同的，例如StandardAnalyzer或WhitespaceAnalyzer。

展示：

StringReader reader = new StringReader("ramarim 129202 cinza");
LetterTokenizer stream = new LetterTokenizer(Version.LUCENE_42, reader);        
stream.setReader(reader);
stream.reset();
while(stream.incrementToken()) {
    System.out.println(stream.reflectAsString(false));
}
stream.close();

输出：

term=ramarim,bytes=[72 61 6d 61 72 69 6d],startOffset=19,endOffset=26
term=cinza,bytes=[63 69 6e 7a 61],startOffset=34,endOffset=39

替换StandardTokenizer（由使用StandardAnalyzer）将为您提供：

term=ramarim,bytes=[72 61 6d 61 72 69 6d],startOffset=19,endOffset=26,positionIncrement=1,type=<ALPHANUM>
term=129202,bytes=[31 32 39 32 30 32],startOffset=27,endOffset=33,positionIncrement=1,type=<NUM>
term=cinza,bytes=[63 69 6e 7a 61],startOffset=34,endOffset=39,positionIncrement=1,type=<ALPHANUM>

java - 在 Lucene 索引中搜索特定术语

1 回答 1

Related

Reference