2

是否可以设置在 Lucene 中返回结果的最低分数?

我有这个功能:

public Tuple<int,ICollection<Guid>> Search(string searchQuery,int maxResults)
{
    var booleanQuery = new BooleanQuery();
    var s1 = new TermQuery(new Term("companyName", searchQuery));
    booleanQuery.Add(s1, Occur.SHOULD);

    using (var searcher = new IndexSearcher(this.Directory))
    {
        TopDocs hits = searcher.Search(booleanQuery, maxResults);

        var ids = new List<Guid>();
        for (int i = 0; i < hits.ScoreDocs.Count(); i++)
        {
            var idString = searcher.Doc(hits.ScoreDocs[i].Doc).Get("id");
            ids.Add(new Guid(idString));
        }
        return new Tuple<int, ICollection<Guid>>(hits.TotalHits, ids);
    }
}

该函数搜索我的索引并返回与 searchQuery 匹配的公司的 ID,以及与搜索匹配的公司总数 - 因此我可以编写“显示 245 家匹配公司中的 1-20 家”。

我的问题是比赛的门槛很低。如果用户输入“accountant”,则搜索返回有意义的结果,但如果他们输入“adasdfsdf”,则返回不相关的结果。如果结果不够相关,我宁愿显示一条消息,如“抱歉,没有公司符合您的查询”。

是否可以为比赛设置最低分数?物业会TopDocs.TotalHits尊重这个分数吗?

4

1 回答 1

5

简而言之,没有。您不能真正在 Lucene 中创建最低分数截止点。这是一个关于为什么不的讨论。请注意,所讨论的案例与您所要求的略有不同,但困难大致相同(事实上,提供一个合理的分界点以用于不同的独立查询会引入更大的,尽管密切相关,困难)。

解决这个问题的更好方法是设计您的查询,这样您就不会得到不相关的结果。在您的示例中,我真的不明白为什么您会看到很多不相关的结果,所以我假设查询中添加了其他术语。在这种情况下,如果您只想获取new Term("companyName", searchQuery)匹配的文档,则应使用Occur.MUSTbooleanClause 添加它,例如:

var booleanQuery = new BooleanQuery();
var s1 = new TermQuery(new Term("companyName", searchQuery));
booleanQuery.Add(s1, Occur.MUST);

为了进一步解释,Occur.MUSTandOccur.SHOULD是你的问题。如果您有如下查询:

category:type1 companyName:asdfdas

并且在 companyName 上没有结果,那么您只会看到 query 的结果category:type1。如果您确实与 companyName 匹配,则这些结果将被判断为具有更高的相关性,并且会首先显示,但它仍然会显示与该类别匹配的所有内容,只是在列表中较低的位置。在该示例中,这两个术语都添加了BooleanClause.Occur.SHOULD,因此两者都是可选的(尽管在任何结果中仍必须找到至少一个匹配的术语)。

如果您希望仅显示与类别和公司名称都匹配的术语,则应使用BooleanClause.Occur.MUST. 使用查询语法,这看起来像:

+category:type1 +companyName:asdfdas

或者构建一个 BooleanQuery:

var s1 = new TermQuery(new Term("companyName", "asdfdas"));
booleanQuery.Add(s1, Occur.MUST);
var s1 = new TermQuery(new Term("category", "type1"));
booleanQuery.Add(s1, Occur.MUST);
于 2013-02-04T18:37:16.853 回答