我正在从数据框创建一个 Copus。我将其作为 a 传递,因为VectorSource
我只想将一列用作文本源。这项工作发现但是我需要语料库中的文档 ID 来匹配数据框中的文档 ID。文档 ID 存储在原始数据框中的单独列中。
df <- as.data.frame(t(rbind(c(1,3,5,7,8,10),
c("text", "lots of text", "too much text", "where will it end", "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))
运行此代码会创建一个语料库,但文档 ID 为 1-6。有什么方法可以创建文档 ID 为 1、3、5、7、8、10 的语料库?