我使用 LDA 为 2 个文本文档 A 和 B 建立主题模型。文档 A 与计算机科学高度相关,文档 B 与地球科学高度相关。然后我使用这个命令训练了一个 lda:
text<- c(A,B) # introduced above
r <- Corpus(VectorSource(text)) # create corpus object
r <- tm_map(r, tolower) # convert all text to lower case
r <- tm_map(r, removePunctuation)
r <- tm_map(r, removeNumbers)
r <- tm_map(r, removeWords, stopwords("english"))
r.dtm <- TermDocumentMatrix(r, control = list(minWordLength = 3))
my_lda <- LDA(r.dtm,2)
现在我想使用 my_lda 来预测一个新文档的上下文,比如 C,我想看看它是否与计算机科学或地球科学有关。我知道我是否使用此代码进行预测
x<-C# a new document (a long string) introduced above for prediction
rp <- Corpus(VectorSource(x)) # create corpus object
rp <- tm_map(rp, tolower) # convert all text to lower case
rp <- tm_map(rp, removePunctuation)
rp <- tm_map(rp, removeNumbers)
rp <- tm_map(rp, removeWords, stopwords("english"))
rp.dtm <- TermDocumentMatrix(rp, control = list(minWordLength = 3))
test.topics <- posterior(my_lda,rp.dtm)
它会给我一个标签 1 或 2,但我不知道 1 或 2 代表什么……我怎么知道它是指计算机科学相关还是地球科学相关?