machine-learning - 标记的 LDA 使用情况

Question

我正在做一个需要应用主题模型 LDA 的项目。因为我的每个文档都很短，所以我必须使用 Labeled LDA。我在这方面的知识不多，我需要做的就是将 LLDA 应用于我的数据。

在网上搜索后，我在Stanford TMT上找到了一个 LLDA 实现。我从训练带标签的 LDA 模型一节中了解到：我应该在训练之前标记每个输入文档。我是不是误会了什么？

如果我的理解是正确的，这将涉及太多的标签文件工作。相反，我可以提供单独的主题列表，并训练没有标签的文档吗？

score 5 · Accepted Answer

您的理解是正确的：您需要在训练之前标记每个输入文档。

带标签的 LDA 是一种监督方法，这意味着您需要一个带标签的数据集。

如果您“必须使用带标签的 LDA”，您就无法摆脱获取带标签数据集的需要。如果LabeledLDATMT 中的模型需要一个LabeledLDADocumentParams对象并创建它，则需要标签数组。因此，不，不可能在没有标签的情况下训练有标签的 LDA 模型。

1 回答 1