1

我总共有 54892 个文档。从数据库中检索它们后,我应该如何将它们转换为可用于使用 LDA 进行主题建模的语料库?

这是我尝试过的代码:

library(RMySQL)
library(RTextTools)
library(topicmodels)
library(tm)

con <- dbConnect(MySQL(), user="root", password="root", dbname="dbtemp", host="localhost")
rs <- dbSendQuery(con, "select text_body from all_text;")
data <- fetch(rs, n=54892)
huh <- dbHasCompleted(rs)
dbClearResult(rs)
dbDisconnect(con)

我参考了这个页面,并注意到该data行的输出data <- NYTimes[sample(1:3100,size=1000,replace=FALSE),]包含一个两列的表以及另一个名为 的表TopicCode,然后将data其转换为术语文档频率矩阵。我不知道如何TopicCode从我从数据库中检索到的两列中得到它?

我在 Python 中尝试过类似的问题,我将数据转换为市场矩阵格式。我想在 R 中使用这个文件进行进一步的计算。我尝试使用读取这个文件b <- readMM(file="PRC.mm"),当我打印时,b我得到了一个336331X88看起来像这样的矩阵:

. . 2 . . . . . . 1 1 . 1 . . 1 . 2 . . . . . . . . . . . . . ......
. 1 . . . . . . 1 1 . . . . . . . . . . . . . . . . . . . . . ......
. . . . . . . . . 1 1 1 . . . 2 . . . . . . . 1 . . 1 . . . . ......
. . 1 . . . 2 . . . . 1 1 . . . . . . . 1 . . . . . . . . . . ......

其中.表示 0。这看起来像一个术语文档矩阵,但我仍然想在 R 中重新制作这种矩阵。我该怎么办?

4

0 回答 0