更具体一点。假设我有一个包含以下元素的字符向量“名称”:
Names[1]<-"aaron, matt, patrick",
Names[2]<-"jiah, ron, melissa, john, patrick"
等等......我有22956个这样的元素。我想分隔所有名称并在 excel 中为它们分配一个单独的列。我该怎么做呢?它需要文本挖掘。但我不知道该怎么做。
谢谢你。
更具体一点。假设我有一个包含以下元素的字符向量“名称”:
Names[1]<-"aaron, matt, patrick",
Names[2]<-"jiah, ron, melissa, john, patrick"
等等......我有22956个这样的元素。我想分隔所有名称并在 excel 中为它们分配一个单独的列。我该怎么做呢?它需要文本挖掘。但我不知道该怎么做。
谢谢你。
假设 TDM 满足您的需求,您应该能够使用该as.matrix
函数将 TDM 对象强制转换为矩阵,然后像往常一样导出到 csv。
tdmMatrix <- as.matrix(myTDM)
write.csv(tdmMatrix, 'myfile.csv')
我假设您有一个以逗号分隔的字符串元素列表,其中元素数量不同。
Names <- c("aaron, matt, patrick",
"jiah, ron, melissa, john, patrick")
## get max number of elements
mm <- mm <- max(unlist(lapply(strsplit(Names,','),length)))
## set all rows the same length
lapply(strsplit(Names,','),function(x) {length(x) <- mm;x})
## create a data frame with the data welle formatted
res <- do.call(rbind,lapply(strsplit(Names,','),function(x) {length(x) <- mm;x}))
## save the file
write.csv(res,'output.csv')
我认为您也可以rbind.fill
从 plyr 包中使用,但您必须将每一行强制为data.frame
(一定成本)。