我最近一直在尝试使用包data.frame
在 R 中的单个列中查找词频。tm
虽然它data.frame
本身有许多基于数字和字符的列,但我只对纯文本的单个列感兴趣。虽然我清理文本本身没有问题,但只要我尝试使用findFreqTerms()
命令提取词频,就会收到以下错误:
Error: inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")) is not TRUE
我认为这是说我需要将我的数据转换为 aDocumentTermMatrix
或 a TermDocumentMatrix
,但是由于我只有一个正在使用的列,所以我也无法创建任何一个。以下错误:
> Test <- DocumentTermMatrix(Types)
Error in UseMethod("TermDocumentMatrix", x) :
no applicable method for 'TermDocumentMatrix' applied to an object of class "c('PlainTextDocument', 'TextDocument')"
有没有办法从单列中获取频率计数?我在下面粘贴了我的完整代码,并对我采取的每个步骤进行了解释。我很感激你们能给我的任何帮助。
> # extracting the single column I wish to analyse from the data frame
Types <-Expenses$Types
> # lower all cases
Types <- tolower(Types)
> # remove punctuation
Types <- removePunctuation(Types)
> # remove numbers
Types <- removeNumbers(Types)
> # attempting to find word frequency
findFreqTerms(Types)
Error: inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")) is not TRUE