2

在 MALLET 文档中,它需要 --keep-sequence 标记用于主题模型训练(详细信息位于:http ://mallet.cs.umass.edu/topics.php )

然而,据我所知,常规的 LDA 建模使用文档作为词袋,因为包含二元组会大大增加特征空间。我想知道为什么 MALLET 在 LDA 训练中需要保持序列,以及 MALLET 是如何实际使用该序列信息的?

感谢您阅读这篇文章。

4

1 回答 1

1

它“不需要”保持顺序。

该选项仅是为了使您执行“--output-topic-keys”时每个主题的单词与它们在注释中出现的顺序相同。

当您要在主题模型中查找短语时,它也很有用 ( http://www.mimno.org/articles/phrases/ )

于 2015-10-26T07:34:05.723 回答