search - Lucene 短语查询和标记化索引

Question

我在使用短语查询搜索 lucene 标记化索引时遇到了一个奇怪的问题。

我通过以下方式创建索引

Document doc = new Document();
FieldType ft = new FieldType(StringField.TYPE_STORED);
ft.setTokenized(true);
Field field1 = new Field("key", "T-Test 1", ft); 
doc.add(field1)
Field field2 = new Field("key", "T-Test 2", ft); 
doc.add(field2)    
Field field3 = new Field("key", "T-Test 3", ft); 
doc.add(field3)    
Field field4 = new Field("key", "T-Test", ft); 
doc.add(field4)

我使用 WhitespaceAnalyzer 对值进行标记。如果我现在想搜索字符串“T-Test”，我会得到值 T-Test 1,T-Test 2, T-Test 3, T-Test

我通过以下方式创建查询。

PhraseQuery query = new PhraseQuery();
query.add(new Term("key","T-Test"));
query.setSlop(0);      
BooleanQuery mainQuery = new BooleanQuery();
mainQuery.add(query, Occur.MUST);

我也尝试使用具有相同效果的 ComplexPhraseQueryParser。我只是得到所有的 T 检验值。但我只想要 T 测试而不是“T 测试 1、T 测试 2 和 T 测试 3”有人可以帮帮我吗？我快要绝望了谢谢

score 0 · Accepted Answer

我只是使用 Stringfield 来解决问题。这个解决方案工作得很好。

FieldType ft = new FieldType(StringField.TYPE_STORED);
ft.setTokenized(true);
StringField field = new StringField(key, value,Field.Store.YES);

search - Lucene 短语查询和标记化索引

1 回答 1

Related

Reference