我总共有 54892 个文档。从数据库中检索它们后,我应该如何将它们转换为可用于使用 LDA 进行主题建模的语料库?
这是我尝试过的代码:
library(RMySQL)
library(RTextTools)
library(topicmodels)
library(tm)
con <- dbConnect(MySQL(), user="root", password="root", dbname="dbtemp", host="localhost")
rs <- dbSendQuery(con, "select text_body from all_text;")
data <- fetch(rs, n=54892)
huh <- dbHasCompleted(rs)
dbClearResult(rs)
dbDisconnect(con)
我参考了这个页面,并注意到该data
行的输出data <- NYTimes[sample(1:3100,size=1000,replace=FALSE),]
包含一个两列的表以及另一个名为 的表TopicCode
,然后将data
其转换为术语文档频率矩阵。我不知道如何TopicCode
从我从数据库中检索到的两列中得到它?
我在 Python 中尝试过类似的问题,我将数据转换为市场矩阵格式。我想在 R 中使用这个文件进行进一步的计算。我尝试使用读取这个文件b <- readMM(file="PRC.mm")
,当我打印时,b
我得到了一个336331X88
看起来像这样的矩阵:
. . 2 . . . . . . 1 1 . 1 . . 1 . 2 . . . . . . . . . . . . . ......
. 1 . . . . . . 1 1 . . . . . . . . . . . . . . . . . . . . . ......
. . . . . . . . . 1 1 1 . . . 2 . . . . . . . 1 . . 1 . . . . ......
. . 1 . . . 2 . . . . 1 1 . . . . . . . 1 . . . . . . . . . . ......
其中.
表示 0。这看起来像一个术语文档矩阵,但我仍然想在 R 中重新制作这种矩阵。我该怎么办?