1

在我更新我的 RStudio 版本之前,一切都很好。随着更新,“tm”包中的文档术语矩阵发生了一些变化。我想创建一个 dtm,但有数字。例如,如果我有一个包含一列的 .csv,如下所示:

x
1.01
11.21
123.35
212.11

我希望术语矩阵中的列名如下所示:

1.01 11.21 123.35 212.11
1    0     0      0
0    1     0      0
0    0     1      0
0    0     0      1

但相反,它看起来像这样:

123 212
0   0
0   0
1   0
0   1

这是曾经工作的代码:

corpus = Corpus(VectorSource(x)) dtm = DocumentTermMatrix(corpus) dtm_df = as.data.frame(as.matrix(dtm))

提前致谢

4

1 回答 1

1

来自 'tm' 包维护者 Ingo Feinerer:

这是曾经工作的代码:

语料库 = 语料库(向量源(x))

尝试使用 VCorpus() 而不是 Corpus()。

dtm = DocumentTermMatrix(语料库) dtm_df = as.data.frame(as.matrix(dtm))

这是非常低效的(因为 as.matrix() 从稀疏的术语文档矩阵生成密集表示)。

最好的问候,英戈

于 2017-03-16T13:32:25.713 回答