Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想使用 porter 算法在作为 Mallet 模型的 InputDirectory 中保存为单个文件的语料库上应用词干提取。有人可以帮助它如何执行吗?
目前,您最好的选择是在导入文档之前应用词干分析器。如果你对 Java 编程没问题,另一种方法是创建一个修改 TokenSequence 的 PorterStemmer Pipe 类。
但是,如果您要在英文文本上训练主题模型,那么词干提取几乎肯定没有用。该模型通常可以简单地根据上下文将相关的词组合在一起,而词干提取通常会产生用户难以解释的奇怪的、不完全的词。