Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Apache Mahout 对一组大小合适的文档(约 500k)进行矢量化和聚类。在研究项目网站和 Mahout in Action 书中的示例时,我已经多次看到使用的minLLR参数seq2sparse,但我不确定它期望什么样的值。是否有任何一种“起点”或方法来估计该参数的合适值?
minLLR
seq2sparse
LLR 值没有标准化,所以我不相信有一个好的答案。答案将取决于你想要修剪多少。LLR 值将随着语料库的大小(嗯,n-gram 的数量)线性增加。默认值 1.0 是合理的,我只是建议您通过实验找到正确的值,然后根据输入的大小将其线性缩放到其他输入。