在过去的几天里,我一直在研究一个 Lucene 文档搜索程序,到目前为止,一切都进展顺利。我正在尝试使用Lucene.Net.Highlight.Highlighter
该类来显示我的搜索结果的相关片段,但它不能始终如一地工作。大多数情况下,调用Highlighter.GetBestFragments()
完全符合我的预期(显示带有给定查询字符串的相关文本片段),但有时它只返回一个空字符串。
我已经三次检查了我的输入,我可以验证我正在使用的查询字符串是否存在于输入文本中,但是荧光笔有时只是任意返回一个空字符串。问题是可重现的;使用相同查询时,返回空白片段的文档将继续返回空白片段,而具有合法片段的文档继续具有合法片段。
但是,问题不是特定于文档的。一些查询为文档返回有效片段,而其他查询为同一文档返回空字符串。该问题似乎也与我的分析仪无关;无论我使用 aStandardAnalyzer
还是SnowballAnalyzer
.
经过数小时的探索,我无法在失败的查询/文档中找到任何模式与那些有效的模式。请记住,这发生在使用完全相同的查询从 Lucene 索引中专门拉回的文档上。这意味着Searcher
能够在目标文档中找到相关的查询字符串,但Highlighter
不是。
这是Lucene中的错误吗?如果是这样,我该如何解决它?
我的代码:
private static SimpleHTMLFormatter _formatter = new SimpleHTMLFormatter("<b>", "</b>");
private static SimpleFragmenter _fragmenter = new SimpleFragmenter(50);
...
{
using (var searcher = new IndexSearcher(analyzerInfo.Directory, false))
{
QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_29, "Text", analyzerInfo.Analyzer);
parser.SetMultiTermRewriteMethod(MultiTermQuery.SCORING_BOOLEAN_QUERY_REWRITE);
//build query
BooleanQuery booleanQuery = new BooleanQuery();
booleanQuery.Add(new TermQuery(new Term("PageNum", "0")), BooleanClause.Occur.MUST);
booleanQuery.Add(parser.Parse(searchQuery), BooleanClause.Occur.MUST);
Query query = booleanQuery.Rewrite(searcher.GetIndexReader());
//get results from query
ScoreDoc[] hits = searcher.Search(query, 50).ScoreDocs;
List<DVDoc> results = hits.Select(hit => MapLuceneDocumentToData(searcher.Doc(hit.Doc))).ToList();
//add relevant fragments to search results (shows WHY a certain result was chosen)
QueryScorer scorer = new QueryScorer(query);
Highlighter highlighter = new Highlighter(_formatter, scorer);
highlighter.SetTextFragmenter(_fragmenter);
foreach (DVDoc result in results)
{
TokenStream stream = analyzerInfo.Analyzer.TokenStream("Text", new StringReader(result.Text));
result.RelevantFragments = highlighter.GetBestFragments(stream, result.Text, 3, "...");
}
//clean up
analyzerInfo.Analyzer.Close();
searcher.Close();
return results;
}
}
(注意:DVDoc
本质上只是一个结构,它存储有关找到的文档的信息。该方法MapLuceneDocumentToData
将 LuceneDocument
转换为我的自定义DVDoc
类,那里没有魔法。)
由于每个人都喜欢示例输入和输出:
我正在使用 Lucene.NET 版本 2.9.4g。