0

我有一个文本语料库,csv 文件中的每一行都唯一地指定了我感兴趣的“主题”。如果我要使用 topicmodels 包或 lda 中的 LDA 或 Gibbs 方法在该语料库上运行主题模型,如预计我会在每个“文档”中获得多个主题(我的 CSV 中的一行文本,我先验地定义为我感兴趣的独特主题)。我知道这是主题模型的算法和词袋假设的结果。

然而我很好奇的是这个

1) R 中是否有一个预制包,专为用户使用经验词分布指定主题而设计?也就是说,我不希望对主题进行估计;我想告诉 R 主题是什么。我想我可以使用正确数量的主题运行主题模型,使用该对象的结构,然后覆盖其内容。我只是希望有一种更简单或更明显的方法,而我现在还没有看到。

想法?

编辑:添加 - 我只是想到了 alpha 和 beta 参数可以控制 LDA 建模算法中的主题/术语分布。我可以使用哪些设置来强制模型在每个文档中只找到 1 个主题?或者是否有允许这种情况发生的设置?

如果这些看起来像我理解的愚蠢问题 - 我对这个特定领域很陌生,我发现它很吸引人。

4

1 回答 1

0

你想用这种方法完成什么?如果您想告诉 R 主题是什么,以便它可以预测其他行或文档中的主题,那么 RTextTools 可能是一个有用的包。

于 2015-06-16T03:56:16.640 回答