我再次发布这个问题,因为我的查询没有得到回答。
我正在使用 Lucene 开发图书搜索 api。用户可以搜索标题或描述字段包含 CFA 的书。我正在使用 StandardAnalyzer 以及停用词列表。
我正在使用 MultiFieldQueryParser 解析上面的字符串。但是解析后,它会删除字符串中的点。我在这里想念什么?
谢谢。
我再次发布这个问题,因为我的查询没有得到回答。
我正在使用 Lucene 开发图书搜索 api。用户可以搜索标题或描述字段包含 CFA 的书。我正在使用 StandardAnalyzer 以及停用词列表。
我正在使用 MultiFieldQueryParser 解析上面的字符串。但是解析后,它会删除字符串中的点。我在这里想念什么?
谢谢。
正如你所提到的,这是这个问题的骗局。我建议你至少在你的问题中添加一个链接。另外,我会敦促您创建一个用户帐户,因为现在无法查看您的旧问题以获取上下文。
专门处理首StandardAnalyzer
字母缩略词,并将 CFA(例如)转换为 cfa。这意味着您应该能够进行搜索,只要您确保使用相同的分析器进行索引和查询解析。
我建议您运行一些更基本的测试用例来消除其他因素。尝试使用普通用户QueryParser
而不是多字段用户。
这是我写的一些代码来玩StandardAnalyzer
:
StringReader testReader = new StringReader("C.F.A. C.F.A word");
StandardAnalyzer analyzer = new StandardAnalyzer();
TokenStream tokenStream = analyzer.tokenStream("title", testReader);
System.out.println(tokenStream.next());
System.out.println(tokenStream.next());
System.out.println(tokenStream.next());
顺便说一下,这个输出是:
(cfa,0,6,type=<ACRONYM>)
(c.f.a,7,12,type=<HOST>)
(word,13,17,type=<ALPHANUM>)
请注意,例如,如果首字母缩略词不以点结尾,则分析器会假定它是 Internet 主机名,因此搜索“CFA”将不会匹配文本中的“CFA”。
(我只熟悉java lucene,但我想在这种情况下没关系。)
分析器的目的是去除妨碍有效全文搜索的字符和格式。例如,如果您编写的文档仅将 lucene 称为“lucene.net”,您可能希望 lucene 也仅返回“lucene”的搜索命中。因此,StandardAnalyzer 会去除点(以及一些其他特殊字符)。
不过不用担心。与 lucene 一样,这可以配置,在这种情况下,通过选择不同的分析器。尝试改用 SimpleAnalyzer 或 KeywordAnalyzer,看看哪个最接近您想要的行为。如果它们都不行,您甚至可以使用分析器接口实现您自己的自定义分析器。其实很简单。
祝你好运。:)