1

我想尝试一些类似的预测东西: https ://www.quora.com/How-do-I-use-LDA-Latent-Dirichlet-Allocation-for-document-classification-preferably-with-可以在 R 中实现的解决方案

我认为我将不得不使用 doc_id 作为唯一标识符将我的原始数据与 topic_doc_distr 表合并,但我实际上不知道如何。

/edit:doc_id 是持久的还是在语料库创建/数据框转换后变得过时?

我已经尝试了以下 R-Code,但我不知道如何在其中添加 doc_id。

test <- doc_topic_distr

有什么线索吗?

4

1 回答 1

0

像这样解决它:

newDF <- merge(x=df_old, y=df_additions, by="doc_id",all=TRUE)

使用 df_old: 原始文件 df_additions: doc-topic-distr 作为数据框

于 2019-08-30T12:11:34.273 回答