我有一个包含约 1000 个文档的小索引,只有两个字段: - id(字符串) - 内容(text_general)
我注意到,当我通过 id 进行 MLT 搜索类似内容时,原始文档(其中 id 是搜索到的 id)的得分为 5.241327。有 1:1 的重复文档,对于重复的内容,它返回分数 = 1.5258181。为什么?为什么 100% 重复时不是 5.241327。
另一个问题是我可以通过在查询中传递一些文本以任何方式按内容获取相似性文档。例子:
/mlt/?q=content:Some encoded long text&mlt.fl=content
我正在尝试检查是否上传了类似的内容,并且必须在新内容上传时执行检查。