当使用匹配所有查询 (* : *) 发出相同的查询时,我总是得到不同的集群和分数。可能是什么原因?
第一次尝试:
label: "В Минске"
score: 52.79549568196028
第二次尝试:
label: "В Минске"
"score": 54.74385944060893
第三次尝试:
label: "В Минске"
"score": 48.884082925408734
集群内的文档 ID 也不同。集群本身发生变化:在一个查询响应中,我得到一个集群“тысячамиевро”,在随后的一个中它消失了,但出现了新集群:“Тысячами Долларов”
是否有一些胡萝卜参数可以使给定查询的集群稳定?可能是期望的ClusterCountBase 吗?
Solr 索引对于所有情况都是相同的。使用的算法:org.carrot2.clustering.lingo.LingoClusteringAlgorithm with StopWordLabelFilter.enabled=false 和 clustering.rows=1000。