我正在尝试将主题建模与 Mallet 一起使用,但有一个问题。
我怎么知道什么时候需要重建模型?例如,我有这么多从网络上爬取的文档,使用 Mallet 提供的主题建模,我可能能够创建模型并用它推断文档。但随着时间的推移,随着我爬取的新数据,可能会出现新的主题。在那种情况下,我怎么知道我是否应该从头到现在重建模型?
我正在考虑为每个月抓取的文件这样做。有人可以建议吗?
那么,主题建模是否更适合主题数量固定(输入参数 k,主题数量)下的文本。如果不是,我如何真正确定要使用的数字?
我正在尝试将主题建模与 Mallet 一起使用,但有一个问题。
我怎么知道什么时候需要重建模型?例如,我有这么多从网络上爬取的文档,使用 Mallet 提供的主题建模,我可能能够创建模型并用它推断文档。但随着时间的推移,随着我爬取的新数据,可能会出现新的主题。在那种情况下,我怎么知道我是否应该从头到现在重建模型?
我正在考虑为每个月抓取的文件这样做。有人可以建议吗?
那么,主题建模是否更适合主题数量固定(输入参数 k,主题数量)下的文本。如果不是,我如何真正确定要使用的数字?