0

我正在从数据集中搜索特定短语的同义词。我有 2 个 JSON 文件,其中存储了由 yes 和 no 的同义词组成的数据。如果我查询“不感兴趣”,它会给出是和否的短语/同义词作为结果,预期的结果就是没有短语/同义词。

en-gen-yes.json

{
"tag":"en-gen-yes",
"phrases": [
    "yes",
    "yeah",
    "sure",
    "suits me",
    "interested"
]

}

en-gen-no.json

{
"tag":"en-gen-no",
"phrases": [
    "no",
    "nope",
    "not sure",
    "does not suits me",
    "not interested"
]

}

查询代码

query := bleve.NewMatchPhraseQuery("not interested")
    req := bleve.NewSearchRequest(query)
    req.Fields = []string{"phrases"}
    searchResults, err := paraphraseIndex.Search(req)
    if err != nil {
        log.Fatal(err)
    }
    if searchResults.Hits.Len() == 0 {
        fmt.Println("No matches found")
    } else {
        for i := 0; i < searchResults.Hits.Len(); {
            hit := searchResults.Hits[i]
            fmt.Printf("%s\n", hit.Fields["phrases"])
            i = i + 1
        }
    }

结果如下

[不不不不确定不适合我不感兴趣] [是的,当然适合我感兴趣]

预期结果只是

[不不不不确定不适合我不感兴趣]

4

1 回答 1

0

它匹配两者的原因是您使用的 MatchPhraseQuery 将分析搜索词。您没有在这里显示 IndexMapping,所以我不能确定,但​​我假设您使用的是“标准”分析器。这个分析器去掉了英文停用词,这里定义了英文停用词列表:

https://github.com/blevesearch/bleve/blob/master/analysis/lang/en/stop_words_en.go#L281

因此,这意味着当您为“不感兴趣”执行 MatchPhraseQuery 时,您最终只会搜索“感兴趣”。这个词恰好也在你的“是”同义词列表中。

值得注意的是,有一个名为 PhraseQuery(无匹配)的变体可以进行精确匹配。虽然这不会在搜索时删除“not”一词,但它仍然找不到匹配项。原因是“不”一词在索引时也已被删除,因此“不感兴趣”的精确匹配不会找到任何匹配项(是或否)。

解决方案是配置一个自定义分析器,该分析器要么不删除任何停用词,要么使用不包含单词“not”的自定义停用词列表。如果您这样做,并将其用于索引和搜索,您正在使用的查询应该开始正常工作。

于 2017-11-17T15:02:52.443 回答