-1

我有一个包含一个段落的输入文件。我需要找到该段落中特定单词的频率。

猫文件:

Text    Index
train is good   1
let the train come      5
train is best   3
i m great       3
what is best    2

代码:

 input<-read.table("file",sep="\t",header=TRUE)
 paragraph1<-input[1][1]
 word<-"train"

我需要在第 1 段中找到单词“train”的频率。我怎样才能使用 R 获得它?

4

1 回答 1

3

如果您提供更多信息,我可能会提供更多信息作为回报。使用qdap你可以:

library(qdap)

dat <- readLines(n=5)
train is good   1
let the train come      5
train is best   3
i m great       3
what is best    2

dat <- do.call(rbind.data.frame, strsplit(dat, "   +"))

colnames(dat) <- c("Text", "Index")

termco(dat$Text, , " train ")

## > termco(dat$Text, , " train ")
##   all word.count     train
## 1 all         16 3(18.75%)

您可能可以使用 . 一次完成所有段落termco。有关更多信息,termco请参阅此链接

这在很大程度上取决于分隔段落的内容,阅读方式,缩进方式等。

发帖人发现以下内容很有用:

length(gregexpr("the", "the dog ate the word the", fixed = TRUE)[[1]])

于 2013-03-20T03:01:04.233 回答