1

我正在包含年度公司报告的文档语料库(使用 elasticsearch 5.5.1)中搜索一个短语。我正在搜索一个短语,查询上下文如下所示:

"query": {
    "bool": {
      "should": [{ "match_phrase": { "content": {"query": "computer vision"}}}

在查看返回结果的解释时,看起来术语频率是以正确(或我期望的)方式计算的,即它返回短语在文档中出现的次数。但是,idf 计算将短语的每个组成词的结果相加。例如,在短语“计算机视觉”中,它分别计算“计算机”的 docFreq 和“视觉”的 docFeq,并将每个的 log(1 + (docCount - docFreq + 0.5) / (docFreq + 0.5)) 相加单词。这不是我所期望的——我原以为像 docFreq 这样的词频将基于确切短语的出现次数。任何帮助将非常感激。

4

0 回答 0