3

我正在做一个需要应用主题模型 LDA 的项目。因为我的每个文档都很短,所以我必须使用 Labeled LDA。我在这方面的知识不多,我需要做的就是将 LLDA 应用于我的数据。

在网上搜索后,我在Stanford TMT上找到了一个 LLDA 实现。我从训练带标签的 LDA 模型一节中了解到:我应该在训练之前标记每个输入文档。我是不是误会了什么?

如果我的理解是正确的,这将涉及太多的标签文件工作。相反,我可以提供单独的主题列表,并训练没有标签的文档吗?

4

1 回答 1

5

您的理解是正确的:您需要在训练之前标记每个输入文档。

带标签的 LDA 是一种监督方法,这意味着您需要一个带标签的数据集。

如果您“必须使用带标签的 LDA”,您就无法摆脱获取带标签数据集的需要。如果LabeledLDATMT 中的模型需要一个LabeledLDADocumentParams对象并创建它,则需要标签数组。因此,不,不可能在没有标签的情况下训练有标签的 LDA 模型。

于 2013-05-25T04:43:06.530 回答