23

事情就是这样。我在索引中存储了一个术语,其中包含特殊字符,例如'-',最简单的代码是这样的:

Document doc = new Document();
doc.add(new TextField("message", "1111-2222-3333", Field.Store.YES, Field.Index.NOT_ANALYZED));
writer.addDocument(doc);

然后我使用 QueryParser 创建一个查询,如下所示:

String queryStr = "1111-2222-3333";
QueryParser parser = new QueryParser(Version.LUCENE_36, "message", new StandardAnalyzer(Version.LUCENE_36));
Query q = parser.parse(queryStr);

然后我使用搜索器搜索查询并没有得到任何结果。我也试过这个:

Query q = parser.parse(QueryParser.escape(queryStr));

而且还是没有结果。

不使用 QueryParser 而是直接使用 TermQuery 可以做我想做的事,但是这种方式对于用户输入文本来说不够灵活。

我想也许 StandardAnalyzer 做了一些事情来省略查询字符串中的特殊字符。试了debug,发现字符串被拆分,实际查询是这样的:“message:1111 message:2222 message:3333”。我不知道lucene究竟做了什么......

那么如果我想执行带有特殊字符的查询,我应该怎么做呢?我应该重写分析器还是从默认的继承查询分析器?以及怎么做?...

更新:

1 @The New Idiot @femtoRgon,我已经尝试过问题中所述的 QueryParser.escape(queryStr) ,但它仍然不起作用。

2 我尝试了另一种方法来解决这个问题。我从Tokenizer派生了一个QueryTokenizer,只用空格截取单词,打包成一个QueryAnalyzer,它派生自Analyzer,最后将QueryAnalyzer传递给QueryParser。

现在它起作用了。最初它不起作用,因为默认的 StandardAnalyzer 根据默认规则(将某些特殊字符识别为拆分器)切割 queryStr,当查询传递到 QueryParser 时,特殊字符已经被 StandardAnalyzer 删除。现在我使用我自己的方式来剪切 queryStr 并且它只将空格识别为分隔符,因此特殊字符保留在查询中等待处理并且这有效。

3 @The New Idiot @femtoRgon,谢谢你回答我的问题。

4

2 回答 2

23

我不确定这一点,但我想你需要-\. 根据Lucene 文档

“-”或禁止运算符排除在“-”符号后包含术语的文档。

再次 ,

Lucene 支持对属于查询语法一部分的特殊字符进行转义。当前列表特殊字符是

+ - && || !( ) { } [ ] ^ " ~ * ? : \ /

要转义这些字符,请在字符前使用 \。

另请记住,如果某些字符在 Java 中具有特殊含义,则需要转义两次。

于 2013-07-24T15:59:55.127 回答
0

您可以将值添加为 addValue() 而不是 add 或 addText。然后使用 KyewordAnalyzer 而不是 Standard Analyzer 在特殊字符中搜索。或使用 addValue() 添加数据,并在 luke 中搜索数据时,将特殊字符替换为通配符搜索字符 (?)。我已经尝试了两种方法和工作

于 2016-07-25T18:14:39.410 回答