r - 为 R 中的术语文档矩阵排除 colSums 中的异常值

Question

我创建了一个术语文档矩阵“myDtm”，其中包含大量专利中包含的一组关键字。我想获得一个有序的、前 100 名、关键词频率最高的专利列表。

代码行是

myDtm <- TermDocumentMatrix(myCorpus, control = list(minWordLength = 1))
keywords <- unique(c("labor","cost","autom", "human" ,"person", "intens","reduc","machin","algorithm"))
inspect(myDtm[keywords,tail(order(colSums(v)),100)])

结果如下所示（摘录）：

Terms       2435 33164 27276 1874 20447 41149 35987 21765 798 2461 19249 6822 27640
  labor        0     0     0    0     1     0     0     0   0    0     0    0     2
  cost        11     0     0    0    13     0     0     0   2    9     0    0     9
  autom        0     0     0    0    26     0     0     0   0    0     0    0     0
  human        0     0     0  270   150    16     0   279   0    0    54    0     1
  person       0    29     0    0    46     3     0     0   0    0     0    0     1
  intens       0     0     0    1     0     0     0     0   0    0     0    0    41
  reduc        8     0     8    9    13   289     2    12  12  305   292    0    44
  machin     264    77     0    0     2     0     0     2   0    0     0  323    31
  algorithm    0     0     8    0     0     0     1     0   2    0     0    0    95

问题：如何排除异常值，例如专利号。6822？对于异常值，我指的是仅包含一两个关键字但频率非常高的专利。我想获得看起来像专利号的前 100 名专利列表。20447 或 27640，其中包含大多数关键字。更具体地说，有没有一种说法：按关键字提及的频率对列进行排序，并确保至少 50% 的关键字被提及？?

先感谢您。

score 0 · Accepted Answer

以下内容排除了存在少于 2 个关键字的所有专利，并为您提供了一个数据框，其中仅包含存在超过 2 个关键字的专利：

myDtm[ ,c(TRUE, sapply(myDtm[-1], function(x) sum(ifelse(x > 0, 1,0)) > 2))]

如果您只想为前 100 名执行此操作，只需将上面的代码与行的过滤器（您已经在 OP 的代码中拥有）相结合，

如果您想要至少 50% 的关键字，您必须执行以下操作：

myDtm[ ,c(TRUE, sapply(myDtm[-1], function(x) sum(ifelse(x > 0, 1,0))/length(x) > 0.5))]

或等效地：

myDtm[ ,c(TRUE, sapply(myDtm[-1], function(x) mean(ifelse(x > 0, 1,0)) >= 0.5))]

或在功能符号中：

cbind(myDtm[1], Filter(function(x) mean(ifelse(x > 0, 1, 0)) >= 0.5, myDtm[-1]))

如果您想检查频率计数，请创建一个新的 df 并生成一些箱线图、汇总统计等（例如，1.5 * IQR 四分位间距通常用作异常值的截止值）：

table_Frequency_counts <- sapply(myDtm[-1], function(x) mean(ifelse(x > 0, 1, 0)))
boxplot(table_Frequency_counts)
summary(table_Frequency_counts)
1.5 * IQR(table_Frequency_counts)

r - 为 R 中的术语文档矩阵排除 colSums 中的异常值

1 回答 1

Related

Reference