如果我索引了 40000 个文档并且我的阈值为 0.005。在搜索建议中显示某个关键字之前,应该有多少文档包含某个关键字?
问问题
42 次
2 回答
0
我想说条款应该(至少)出现在 200 个文档中(40000 个)才能进入建议列表。
200/40000=0.005
200 -> 存在特定术语的文档数。
40000 -> 文档总数。
于 2014-02-18T18:12:44.603 回答
0
默认情况下对您的问题的回答是 5,但您可以根据需要更改它。
尽管如此,您仍然有 2 个不同的阈值:mlt.mintf,最小术语频率 - 在源文档中将忽略术语的频率,DEFAULT_MIN_TERM_FREQ = 2 mlt.mindf,最小文档频率 - 忽略单词的频率至少在这么多文档中不会出现,DEFAULT_MIN_DOC_FREQ = 5
我建议查看http://wiki.apache.org/solr/MoreLikeThis了解所有详细信息。
如果您想了解“更像这样”的工作原理,我还建议您阅读这篇出色的文章http://cephas.net/blog/2008/03/30/how-morelikethis-works-in-lucene/
于 2013-08-01T09:01:39.263 回答