TM 包的 removeCommonTerms 函数位于此处,这样
removeCommonTerms <- function (x, pct)
{
stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")),
is.numeric(pct), pct > 0, pct < 1)
m <- if (inherits(x, "DocumentTermMatrix"))
t(x)
else x
t <- table(m$i) < m$ncol * (pct)
termIndex <- as.numeric(names(t[t]))
if (inherits(x, "DocumentTermMatrix"))
x[, termIndex]
else x[termIndex, ]
}
现在我想删除 Quanteda 包中过于常见的术语。我可以在创建文档特征矩阵或使用文档特征矩阵之前进行此删除。
如何使用 R 中的 Quanteda 包删除过于常见的术语?