java - 使用 Apache Mahout - MinLLR 参数对文档进行矢量化

Question

我正在使用 Apache Mahout 对一组大小合适的文档（约 500k）进行矢量化和聚类。在研究项目网站和 Mahout in Action 书中的示例时，我已经多次看到使用的minLLR参数seq2sparse，但我不确定它期望什么样的值。是否有任何一种“起点”或方法来估计该参数的合适值？

score 2 · Accepted Answer

LLR 值没有标准化，所以我不相信有一个好的答案。答案将取决于你想要修剪多少。LLR 值将随着语料库的大小（嗯，n-gram 的数量）线性增加。默认值 1.0 是合理的，我只是建议您通过实验找到正确的值，然后根据输入的大小将其线性缩放到其他输入。

java - 使用 Apache Mahout - MinLLR 参数对文档进行矢量化

1 回答 1

Related

Reference