2

我正在尝试将主题建模与 Mallet 一起使用,但有一个问题。

我怎么知道什么时候需要重建模型?例如,我有这么多从网络上爬取的文档,使用 Mallet 提供的主题建模,我可能能够创建模型并用它推断文档。但随着时间的推移,随着我爬取的新数据,可能会出现新的主题。在那种情况下,我怎么知道我是否应该从头到现在重建模型?

我正在考虑为每个月抓取的文件这样做。有人可以建议吗?

那么,主题建模是否更适合主题数量固定(输入参数 k,主题数量)下的文本。如果不是,我如何真正确定要使用的数字?

4

1 回答 1

3

您的问题的答案在很大程度上取决于您使用的数据类型和语料库的大小。

关于频率,恐怕您只需要估计您的数据以有意义的方式更改的频率并以该速率进行重构。您可以从一周开始,看看新数据是否会导致明显不同的模型。如果没有,请尝试两周等。

您选择的主题数量取决于您在模型中查找的内容。数字越大,结果越细。如果您想全面了解您的语料库中的内容,您可以选择 10 个主题。为了仔细观察,您可以使用 200 或其他适当高的数字。

我希望这会有所帮助。

于 2010-09-16T22:41:41.993 回答