我正在开发一种工具来识别类似文档并将它们标记为重复。
为此,我使用 ElasticSearch 来检查文档内容,以便 ElasticSearch 负责管理同义词和可能的拼写错误,但是我还没有提出可以达到我目标的查询。
到目前为止,我想出了这个查询:
{
"query":{
"filtered":{
"query":{
"more_like_this":{
"fields":[
"description"
],
"like_text":"Lorem ipsum dolor sit amet, consectetur adipiscing elit.",
"min_term_freq":1,
"max_query_terms":999,
"min_doc_freq":1
}
}
}
},
"from":0,
"size":999,
"search_type": "dfs_query_then_fetch",
"sort":[
{
"_score":{
"order":"desc"
}
}
]
}
但似乎它给我的分数是相当随机的,我希望内容完全相等的分数为 100,而完全不同的分数为 0。