我有一对 CSV 格式的客户反馈数据,表示客户是否推荐了他们收到的服务(1 或 0)“rec”和相关的评论“comment”。我正在尝试比较推荐该服务的人和不推荐该服务的人之间的客户反馈。
我已经使用 tm 包来简单地读取 CSV 中只有注释的所有行,并对所有注释进行一些后续文本挖掘,这很有效:
>file_loc <- "C:/Users/..(etc)...file.csv"
x <- read.csv(file_loc, header = TRUE)
require(tm)
fdbk <- Corpus(DataframeSource(x))
现在,我试图通过包含“rec”列来比较那些推荐和不推荐的客户的评论,但我无法从单个列 CSV 创建语料库 - 我尝试了以下操作:
>file_loc <- "C:/Users/..(etc)...file.csv"
x <- read.csv(file_loc, header = TRUE)
require(tm)
fdbk <- Corpus(DataframeSource(x$comment))
但我得到一个错误说
"Error in if (vectorized && (length <= 0))
stop("vectorized sources must have positive length") :
missing value where TRUE/FALSE needed"
在创建主题模型后,我还尝试将“rec”代码绑定到评论,但某些评论最终会被“主题”函数过滤,因此“rec”列比生成的主题模型中的文档数长。
如果这是我可以简单地用 tm 包做的事情?我根本没有使用过 qdap 包,但这在这里更合适吗?