6

我希望我的搜索结果按分数排序,他们正在这样做,但分数计算不正确。也就是说,不一定不正确,但与预期不同,我不确定为什么。我的目标是删除任何改变分数的东西。

如果我在两个对象上执行匹配的搜索(其中 ObjectA 的得分应该高于 ObjectB),则首先返回 ObjectB。

假设对于这个例子,我的查询是一个词:“apples”。

ObjectA 的标题:“apples are apples”(2/3 词条)
ObjectA 的描述:“原来有苹果在苹果-苹果中,现在苹果变成了所有的苹果!” (6/18 词)
ObjectB 的标题:“苹果很棒”(1/3 词)
ObjectB 的描述:“苹果房里有苹果,现在苹果全都坏了!” (4/18 学期)

标题字段没有提升(或者更确切地说,提升 1),描述字段提升 0.8。我没有通过 solrconfig.xml 或通过我正在传递的查询指定文档提升。如果有另一种指定文档提升的方法,那么我可能会错过一个。

在分析explain打印输出后,看起来 ObjectA正确计算了比 ObjectB 更高的分数,就像我想要的一样,除了一个区别:ObjectB 的标题 fieldNorm 总是高于 ObjectA。


下面是explain打印输出。只是让您知道:标题字段是mditem5_tns,描述字段是mditem7_tns

ObjectB:
1.3327172 = (MATCH) sum of:
  1.0352166 = (MATCH) max plus 0.1 times others of:
    0.9766194 = (MATCH) weight(mditem5_tns:appl in 0), product of:
      0.53929156 = queryWeight(mditem5_tns:appl), product of:
        1.8109303 = idf(docFreq=3, maxDocs=9)
        0.2977981 = queryNorm
      1.8109303 = (MATCH) fieldWeight(mditem5_tns:appl in 0), product of:
        1.0 = tf(termFreq(mditem5_tns:appl)=1)
        1.8109303 = idf(docFreq=3, maxDocs=9)
        1.0 = fieldNorm(field=mditem5_tns, doc=0)
    0.58597165 = (MATCH) weight(mditem7_tns:appl^0.8 in 0), product of:
      0.43143326 = queryWeight(mditem7_tns:appl^0.8), product of:
        0.8 = boost
        1.8109303 = idf(docFreq=3, maxDocs=9)
        0.2977981 = queryNorm
      1.3581977 = (MATCH) fieldWeight(mditem7_tns:appl in 0), product of:
        2.0 = tf(termFreq(mditem7_tns:appl)=4)
        1.8109303 = idf(docFreq=3, maxDocs=9)
        0.375 = fieldNorm(field=mditem7_tns, doc=0)
  0.2975006 = (MATCH) FunctionQuery(1000.0/(1.0*float(top(rord(lastmodified)))+1000.0)), product of:
    0.999001 = 1000.0/(1.0*float(1)+1000.0)
    1.0 = boost
    0.2977981 = queryNorm

ObjectA:
1.2324848 = (MATCH) sum of:
  0.93498427 = (MATCH) max plus 0.1 times others of:
    0.8632177 = (MATCH) weight(mditem5_tns:appl in 0), product of:
      0.53929156 = queryWeight(mditem5_tns:appl), product of:
        1.8109303 = idf(docFreq=3, maxDocs=9)
        0.2977981 = queryNorm
      1.6006513 = (MATCH) fieldWeight(mditem5_tns:appl in 0), product of:
        1.4142135 = tf(termFreq(mditem5_tns:appl)=2)
        1.8109303 = idf(docFreq=3, maxDocs=9)
        0.625 = fieldNorm(field=mditem5_tns, doc=0)
    0.7176658 = (MATCH) weight(mditem7_tns:appl^0.8 in 0), product of:
      0.43143326 = queryWeight(mditem7_tns:appl^0.8), product of:
        0.8 = boost
        1.8109303 = idf(docFreq=3, maxDocs=9)
        0.2977981 = queryNorm
      1.6634457 = (MATCH) fieldWeight(mditem7_tns:appl in 0), product of:
        2.4494898 = tf(termFreq(mditem7_tns:appl)=6)
        1.8109303 = idf(docFreq=3, maxDocs=9)
        0.375 = fieldNorm(field=mditem7_tns, doc=0)
  0.2975006 = (MATCH) FunctionQuery(1000.0/(1.0*float(top(rord(lastmodified)))+1000.0)), product of:
    0.999001 = 1000.0/(1.0*float(1)+1000.0)
    1.0 = boost
    0.2977981 = queryNorm
4

2 回答 2

6

问题是由词干分析器引起的。它将“apples are apples”扩展为“apples appl are apples appl”,从而使该字段更长。由于文档 B 仅包含 1 个由词干分析器扩展的术语,因此该字段比文档 A 短。

这导致不同的 fieldNorms。

于 2010-06-23T19:08:14.477 回答
2

FieldNORm 由 3 个组成部分计算 - 字段的索引时间提升、文档的索引时间提升和字段长度。假设您没有提供任何索引时间提升,则差异必须是字段长度。

因此,由于对于较短的字段值,lengthNorm 较高,为了使 B 具有较高的标题 fieldNorm 值,它在标题中的标记数量必须少于 A。

有关 Lucene 评分的详细说明,请参见以下页面:

http://lucene.apache.org/java/2_4_0/scoring.html http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/search/Similarity.html

于 2010-06-23T17:35:13.270 回答