在我更新我的 RStudio 版本之前,一切都很好。随着更新,“tm”包中的文档术语矩阵发生了一些变化。我想创建一个 dtm,但有数字。例如,如果我有一个包含一列的 .csv,如下所示:
x
1.01
11.21
123.35
212.11
我希望术语矩阵中的列名如下所示:
1.01 11.21 123.35 212.11
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
但相反,它看起来像这样:
123 212
0 0
0 0
1 0
0 1
这是曾经工作的代码:
corpus = Corpus(VectorSource(x))
dtm = DocumentTermMatrix(corpus)
dtm_df = as.data.frame(as.matrix(dtm))
提前致谢