我有大量要编入索引的新闻文章。我想避免索引很多几乎相同的文章(例如,来自新闻服务的文章可能多次出现,日期格式略有不同)。
所以我想我会为每篇文章做一个更像这样的查询。如果我得到一个分数 > 一些截止值的命中,那么我认为这篇文章已经被索引了,我不理会它。
但是,当我运行更像这样的查询时,我得到的所有命中都以零分返回。我不知道这是否是预期的,如果我做错了什么,或者我是否发现了一个错误。
我的查询看起来像:
POST _search
{"query":
{"bool":
{"filter": [
{"more_like_this":
{"fields": ["text"],
"like": "Doctor Sentenced In $3.1M Health Care Fraud Scheme Justice Department Documents & Publications \nGreenbelt, Maryland - U.S. District Judge Deborah K. Chasanow sentenced physician [snip]"
}
}
]
}
}
我得到的结果是:
{
"took": 8,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 390,
"max_score": 0,
"hits": [
[snip]