1

我想使用 porter 算法在作为 Mallet 模型的 InputDirectory 中保存为单个文件的语料库上应用词干提取。有人可以帮助它如何执行吗?

4

1 回答 1

2

目前,您最好的选择是在导入文档之前应用词干分析器。如果你对 Java 编程没问题,另一种方法是创建一个修改 TokenSequence 的 PorterStemmer Pipe 类。

但是,如果您要在英文文本上训练主题模型,那么词干提取几乎肯定没有用。该模型通常可以简单地根据上下文将相关的词组合在一起,而词干提取通常会产生用户难以解释的奇怪的、不完全的词。

于 2016-05-10T20:27:15.260 回答