0

我正在使用 mahout 使用 LDA 进行主题发现。为了准备我的数据,我使用seq2sparsewhich 标记文档并创建 n-gram。但是它默认不支持词干。我想知道 Mahout 是否有任何内置词干?如果没有,我应该实施自己的吗?有什么推荐吗?

4

1 回答 1

0

您可以使用以下seq2sparse命令精确分析仪:

$MAHOUT_HOME/bin/mahout seq2sparse
             ...
             --analyzerName (-a) analyzerName  The class name of the analyzer 

该分析器是一个 Apache Lucene 分析器,因此您必须按照以下示例精确命名:

org.apache.lucene.analysis.fr.FrenchAnalyzer

我建议您阅读官方文档以获取有关您可以使用该seqsparse命令做什么的更多信息。您还需要阅读一些 Lucene文档

PS:您应该使用与 mahout 相同的 lucene 版本。

于 2015-05-06T16:57:15.207 回答