我已经阅读了 LDA,并且我了解当一个人输入一组文档时如何生成主题的数学原理。
参考资料说,LDA 是一种算法,给定一组文档,仅此而已(无需监督),可以发现该集合中文档表达的“主题”。因此,通过使用 LDA 算法和吉布斯采样器(或变分贝叶斯),我可以输入一组文档,作为输出,我可以获得主题。每个主题都是一组具有指定概率的术语。
我不明白的是,如果以上是真的,那为什么很多主题建模教程都在谈论将数据集分为训练集和测试集呢?
谁能解释一下 LDA 如何用于训练模型的步骤(基本概念),然后可以用来分析另一个测试数据集?