1

如果我索引了 40000 个文档并且我的阈值为 0.005。在搜索建议中显示某个关键字之前,应该有多少文档包含某个关键字?

4

2 回答 2

0

我想说条款应该(至少)出现在 200 个文档中(40000 个)才能进入建议列表。

200/40000=0.005

200 -> 存在特定术语的文档数。
40000 -> 文档总数。

于 2014-02-18T18:12:44.603 回答
0

默认情况下对您的问题的回答是 5,但您可以根据需要更改它。

尽管如此,您仍然有 2 个不同的阈值:mlt.mintf,最小术语频率 - 在源文档中将忽略术语的频率,DEFAULT_MIN_TERM_FREQ = 2 mlt.mindf,最小文档频率 - 忽略单词的频率至少在这么多文档中不会出现,DEFAULT_MIN_DOC_FREQ = 5

我建议查看http://wiki.apache.org/solr/MoreLikeThis了解所有详细信息。

如果您想了解“更像这样”的工作原理,我还建议您阅读这篇出色的文章http://cephas.net/blog/2008/03/30/how-morelikethis-works-in-lucene/

于 2013-08-01T09:01:39.263 回答