1

我正在使用 Apache Mahout 对一组大小合适的文档(约 500k)进行矢量化和聚类。在研究项目网站和 Mahout in Action 书中的示例时,我已经多次看到使用的minLLR参数seq2sparse,但我不确定它期望什么样的值。是否有任何一种“起点”或方法来估计该参数的合适值?

4

1 回答 1

2

LLR 值没有标准化,所以我不相信有一个好的答案。答案将取决于你想要修剪多少。LLR 值将随着语料库的大小(嗯,n-gram 的数量)线性增加。默认值 1.0 是合理的,我只是建议您通过实验找到正确的值,然后根据输入的大小将其线性缩放到其他输入。

于 2011-07-14T19:39:58.307 回答